МЕТОД НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ АВТОНОМНОГО ПЛАНУВАННЯ ТРАЄКТОРІЇ ПОЛЬОТУ ГРУПИ БПЛА
DOI:
https://doi.org/10.31891/csit-2025-2-20Ключові слова:
планування траєкторій, навчання з підкріпленням, централізоване навчання, децентралізоване виконання, багатоагентні системи, алгоритм PPO, RNN, архітектура CTDEАнотація
Метою роботи є розробка методу навчання з підкріпленням для автономного планування траєкторій польоту групи БПЛА в умовах обмеженої видимості середовища та конфліктних цілей оптимізації. Запропоновано багатoагентний підхід навчання з підкріпленням на основі алгоритму проксимальної оптимізації політики (PPO) з використанням архітектури централізованого навчання та децентралізованого виконання (CTDE). Для покращення роботи в умовах часткових спостережень інтегровано рекурентну нейронну мережу в структури акторів і критиків. Розроблено спеціалізовану функцію винагороди, яка враховує показники безпеки, швидкості досягнення цілей та площі покриття території. Результати експериментів показали перевагу запропонованого методу над незалежним навчанням за критеріями швидкості збіжності, стабільності стратегії та величини отриманої винагороди. Структура CTDE із рекурентними мережами дозволила ефективно вирішити проблеми координації між БПЛА та неповної інформації про середовище. Модель забезпечує автономне планування траєкторій у реальному часі у тривимірних середовищах. Наукова новизна полягає в поєднанні методів глибокого навчання з підкріпленням, рекурентних нейронних мереж та архітектури CTDE для вирішення задач багатокритеріальної оптимізації в умовах часткової доступності даних. Розроблений підхід дозволяє підвищити ефективність групової навігації БПЛА, зокрема в сферах розвідки, пошуково-рятувальних операцій і моніторингу, де важливими є автономність, швидкість реагування і надійність.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Максим ВЕЛИЧКО, Тетяна КИСІЛЬ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.