УДОСКОНАЛЕНИЙ ДВОКРОКОВИЙ МЕТОД НА ОСНОВІ АУГМЕНТАЦІЇ ДЛЯ АНАЛІЗУ МАЛИХ НАБОРІВ ДАНИХ ДЛЯ ВИРІШЕННЯ МЕДИЧНИХ ЗАДАЧ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2025-1-18

Ключові слова:

нейронна мережа узагальненої регресії, малі дані, аугментація даних, високорозмірні дані, регресія

Анотація

Попри величезні можливості для збору даних, досі нерідко виникають ситуації, де дані є дефіцитними. Недостатня кількість даних може значно ускладнити їх ефективний аналіз, оскільки більшість відомих підходів вимагають достатньо великої тренувальної вибірки для отримання точних передбачень. У галузі медицини проблеми нестачі даних є досить поширеними через низку причин (конфіденційність, фрагментованість та природна рідкісність). Відповідно, актуальною є розробка алгоритмів, що зможуть хоча б частково знівелювати дефіцит даних та продемонструвати задовільну ефективність. Наявні техніки аналізу малих даних, що базуються на їх аугментації, можуть покращити ефективність традиційних методів. Однак, разом зі збільшенням кількості екземплярів у вибірці, кількість ознак також суттєво зростає, що може негативно позначитись на роботі методів машинного навчання.

У цій роботі було запропоновано удосконалений двокроковий метод для інтелектуального аналізу коротких високорозмірних наборів даних на основі нейронної мережі узагальненої регресії. Особливістю цього підходу є уникнення кратного збільшення кількості ознак в аугментованій вибірці. Метод було використано для розв'язання двох регресійних задач: передбачення значення функції та визначення міцності на стиск стегнової кістки. Обидва набори даних містили менше 100 екземплярів. Оптимальні параметри було визначено за допомогою оптимізаційного алгоритму Dual Annealing для п’яти мір відстані: евклідової, Чебишова, мангеттенської, канберрської та косинусової. Запропонований метод показав суттєве зменшення похибок (таких як MAE, RMSE) порівняно з традиційною моделлю GRNN. Також розроблена техніка перевершила точність методу подвоєння входів для обох розв’язуваних задач. Разом із підвищенням точності, запропонована модель також збільшила час виконання. Тому доцільність його застосування залежить від пріоритетів вирішуваної проблеми.

##submission.downloads##

Опубліковано

2025-03-27

Як цитувати

ГАВРИЛЮК, М. (2025). УДОСКОНАЛЕНИЙ ДВОКРОКОВИЙ МЕТОД НА ОСНОВІ АУГМЕНТАЦІЇ ДЛЯ АНАЛІЗУ МАЛИХ НАБОРІВ ДАНИХ ДЛЯ ВИРІШЕННЯ МЕДИЧНИХ ЗАДАЧ. Computer Systems and Information Technologies, (1), 156–162. https://doi.org/10.31891/csit-2025-1-18