УДОСКОНАЛЕНИЙ ДВОКРОКОВИЙ МЕТОД НА ОСНОВІ АУГМЕНТАЦІЇ ДЛЯ АНАЛІЗУ МАЛИХ НАБОРІВ ДАНИХ ДЛЯ ВИРІШЕННЯ МЕДИЧНИХ ЗАДАЧ
DOI:
https://doi.org/10.31891/csit-2025-1-18Ключові слова:
нейронна мережа узагальненої регресії, малі дані, аугментація даних, високорозмірні дані, регресіяАнотація
Попри величезні можливості для збору даних, досі нерідко виникають ситуації, де дані є дефіцитними. Недостатня кількість даних може значно ускладнити їх ефективний аналіз, оскільки більшість відомих підходів вимагають достатньо великої тренувальної вибірки для отримання точних передбачень. У галузі медицини проблеми нестачі даних є досить поширеними через низку причин (конфіденційність, фрагментованість та природна рідкісність). Відповідно, актуальною є розробка алгоритмів, що зможуть хоча б частково знівелювати дефіцит даних та продемонструвати задовільну ефективність. Наявні техніки аналізу малих даних, що базуються на їх аугментації, можуть покращити ефективність традиційних методів. Однак, разом зі збільшенням кількості екземплярів у вибірці, кількість ознак також суттєво зростає, що може негативно позначитись на роботі методів машинного навчання.
У цій роботі було запропоновано удосконалений двокроковий метод для інтелектуального аналізу коротких високорозмірних наборів даних на основі нейронної мережі узагальненої регресії. Особливістю цього підходу є уникнення кратного збільшення кількості ознак в аугментованій вибірці. Метод було використано для розв'язання двох регресійних задач: передбачення значення функції та визначення міцності на стиск стегнової кістки. Обидва набори даних містили менше 100 екземплярів. Оптимальні параметри було визначено за допомогою оптимізаційного алгоритму Dual Annealing для п’яти мір відстані: евклідової, Чебишова, мангеттенської, канберрської та косинусової. Запропонований метод показав суттєве зменшення похибок (таких як MAE, RMSE) порівняно з традиційною моделлю GRNN. Також розроблена техніка перевершила точність методу подвоєння входів для обох розв’язуваних задач. Разом із підвищенням точності, запропонована модель також збільшила час виконання. Тому доцільність його застосування залежить від пріоритетів вирішуваної проблеми.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Мирослав ГАВРИЛЮК

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.