ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ ІМПУТАЦІЇ ПРОПУЩЕНИХ ДАНИХ У БІОМЕДИЧНИХ ДОСЛІДЖЕННЯХ: ВПЛИВ НА ПЕРЕДБАЧЕННЯ БІОЛОГІЧНОГО ВІКУ

Автор(и)

  • Володимир СЛІПЧЕНКО Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0002-3405-0781
  • Любов Полягушко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0003-3287-8523
  • Олександр ВОЛКОВ Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0009-0003-6834-8118

DOI:

https://doi.org/10.31891/csit-2026-2-21

Ключові слова:

імпутація даних, пропущені дані, біологічний вік, машинне навчання, MCAR, MAR, MNAR

Анотація

Пропущені дані залишаються однією з ключових проблем біомедичних досліджень, оскільки можуть спричиняти зміщення статистичних оцінок, знижувати точність прогнозування та послаблювати надійність наукових висновків. У роботі було виконано порівняльне оцінювання п’яти підходів до імпутації: IterativeImputer з оцінювачами RandomForest, ExtraTrees та BayesianRidge, а також KNNImputer і median-based SimpleImputer. Дослідження проведено на двох біомедичних наборах даних: Bones (3 285 записів, 11 біомаркерів) і NHANES (11 016 записів після скорочення з 55 081, 85 біомаркерів), для яких розглянуто градієнт співвідношення n/p у межах від 19 до 299. Експериментальний дизайн охоплював три механізми пропусків, а саме MCAR, MAR і MNAR, а також три рівні відсутності даних: 10%, 40% і 80%. Якість імпутації оцінювалася за показником RMSE, тоді як downstream-вплив аналізувався через прогнозування біологічного віку з використанням моделей ElasticNet і PCA. Встановлено, що IterativeImputer з ExtraTrees продемонстрував найнижче середнє значення RMSE (9.275), тоді як IterativeImputer з BayesianRidge та RandomForest показали найкращий середній ранг (2.19-2.20), що свідчить про вищу стабільність результатів у різних сценаріях. Для механізму MNAR найкращі результати було отримано для RandomForest (RMSE 10.896), тоді як для MAR найбільш ефективним виявився ExtraTrees (RMSE 8.704). Downstream-аналіз показав, що PCA забезпечував нижчий RMSE прогнозування порівняно з ElasticNet (2.14 проти 5.86), однак у 34% випадків спостерігалися негативні кореляції. Також було виявлено парадоксальний ефект покращення якості імпутації зі зростанням частки пропусків у 55-75% сценаріїв. Найшвидшим методом виявилася median-імпутація (0.0075 с), тоді як RandomForest був найповільнішим (261 с). Отримані результати дали змогу сформулювати практичні рекомендації щодо вибору методів імпутації залежно від структури даних, механізму пропусків та обчислювальних обмежень.

##submission.downloads##

Опубліковано

2026-05-31

Як цитувати

СЛІПЧЕНКО, В., Полягушко, Л., & ВОЛКОВ, О. (2026). ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ ІМПУТАЦІЇ ПРОПУЩЕНИХ ДАНИХ У БІОМЕДИЧНИХ ДОСЛІДЖЕННЯХ: ВПЛИВ НА ПЕРЕДБАЧЕННЯ БІОЛОГІЧНОГО ВІКУ. Computer Systems and Information Technologies, (2), 254–264. https://doi.org/10.31891/csit-2026-2-21