ЗАЛЕЖНІСТЬ ШВИДКОСТІ Q-НАВЧАННЯ АГЕНТА ВІД ФАКТОРІВ У ХРЕСТИКАХ-НУЛИКАХ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2024-3-3

Ключові слова:

Q-навчання, швидкість навчання, коефіцієнт запам’ятовування, швидкість збіжності, хрестики-нулики

Анотація

Машинне навчання програмних агентів з підкріпленням має сьогодні широке застосування. Зокрема, Q-навчання, яке є безмодельною технікою навчання з підкріпленням, показало чудові результати в різних напрямках, таких як ігри, керування самокерованими автомобілями та роботами. Що стосується покрокових ігор, то багато вчених успішно застосовують його для навчання штучного інтелекту або для створення конкурентного суперника гравця-людини. Хоча алгоритми Q-навчання є добре вивченими, існує можливість параметричної оптимізації для досягнення максимальної швидкості навчання, враховуючи специфіку конкретної задачі, такої як покрокова настільна гра. Як показують результати цього дослідження, швидкість навчання може суттєво змінюватися в залежності від факторів. «Хрестики-нулики» – стара і проста гра, яка дає можливість спробувати Q-навчання без надмірних зусиль. Алгоритм є універсальним і може бути використаний до більш складних ігор. Варто зазначити, що ядро алгоритму навчання однакове для будь-якої схожої гри – змінюються лише правила та розмір дошки – що є однією з важливих властивостей Q-навчання.

У статті досліджено вплив швидкості навчання та коефіцієнта запам’ятовування (дисконтування) на швидкість Q-навчання програмного агента для настільної гри «Хрестики-нулики». Проведено серію експериментів з використанням розробленої комп’ютерної реалізації алгоритму для аналізу кореляції між швидкістю навчання, коефіцієнтом запам’ятовування та швидкістю збіжності Q-навчання у вказаній грі. Представлено залежність швидкості навчання від кожного фактора. Результати показують суттєвий зв’язок між цими параметрами та швидкістю збіжності. Наприклад, швидкість збіжності зростає пропорційно до обох факторів, але у випадку фактора запам’ятовування приріст є приблизно в 1,4 рази менший. Практичне значення дослідження полягає в оптимізації факторів для досягнення ефективного навчання програмного агента з метою економії процесорного часу, оплата якого є однією з основних статей витрат підприємств у галузі інформаційних технологій. Крім того, дослідження сприяє кращому розумінню того, як працює Q-навчання в різних ігрових сценаріях, і надає рекомендації щодо вибору параметрів у застосуваннях, подібних до розглянутого

##submission.downloads##

Опубліковано

2024-09-26

Як цитувати

КРАСНІКОВ, К. (2024). ЗАЛЕЖНІСТЬ ШВИДКОСТІ Q-НАВЧАННЯ АГЕНТА ВІД ФАКТОРІВ У ХРЕСТИКАХ-НУЛИКАХ. Computer Systems and Information Technologies, (3), 21–25. https://doi.org/10.31891/csit-2024-3-3