ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ ІМПУТАЦІЇ ПРОПУЩЕНИХ ДАНИХ У БІОМЕДИЧНИХ ДОСЛІДЖЕННЯХ: ВПЛИВ НА ПЕРЕДБАЧЕННЯ БІОЛОГІЧНОГО ВІКУ
DOI:
https://doi.org/10.31891/csit-2026-2-21Ключові слова:
імпутація даних, пропущені дані, біологічний вік, машинне навчання, MCAR, MAR, MNARАнотація
Пропущені дані залишаються однією з ключових проблем біомедичних досліджень, оскільки можуть спричиняти зміщення статистичних оцінок, знижувати точність прогнозування та послаблювати надійність наукових висновків. У роботі було виконано порівняльне оцінювання п’яти підходів до імпутації: IterativeImputer з оцінювачами RandomForest, ExtraTrees та BayesianRidge, а також KNNImputer і median-based SimpleImputer. Дослідження проведено на двох біомедичних наборах даних: Bones (3 285 записів, 11 біомаркерів) і NHANES (11 016 записів після скорочення з 55 081, 85 біомаркерів), для яких розглянуто градієнт співвідношення n/p у межах від 19 до 299. Експериментальний дизайн охоплював три механізми пропусків, а саме MCAR, MAR і MNAR, а також три рівні відсутності даних: 10%, 40% і 80%. Якість імпутації оцінювалася за показником RMSE, тоді як downstream-вплив аналізувався через прогнозування біологічного віку з використанням моделей ElasticNet і PCA. Встановлено, що IterativeImputer з ExtraTrees продемонстрував найнижче середнє значення RMSE (9.275), тоді як IterativeImputer з BayesianRidge та RandomForest показали найкращий середній ранг (2.19-2.20), що свідчить про вищу стабільність результатів у різних сценаріях. Для механізму MNAR найкращі результати було отримано для RandomForest (RMSE 10.896), тоді як для MAR найбільш ефективним виявився ExtraTrees (RMSE 8.704). Downstream-аналіз показав, що PCA забезпечував нижчий RMSE прогнозування порівняно з ElasticNet (2.14 проти 5.86), однак у 34% випадків спостерігалися негативні кореляції. Також було виявлено парадоксальний ефект покращення якості імпутації зі зростанням частки пропусків у 55-75% сценаріїв. Найшвидшим методом виявилася median-імпутація (0.0075 с), тоді як RandomForest був найповільнішим (261 с). Отримані результати дали змогу сформулювати практичні рекомендації щодо вибору методів імпутації залежно від структури даних, механізму пропусків та обчислювальних обмежень.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Володимир СЛІПЧЕНКО, Любов Полягушко, Олександр ВОЛКОВ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
