НОВІТНІЙ МЕТОД МЕДИЧНОЇ КЛАСИФІКАЦІЇ З ВИКОРИСТАННЯМ АЛГОРИТМІВ ПАРАЛЕЛІЗАЦІЇ
DOI:
https://doi.org/10.31891/CSIT-2022-1-3Ключові слова:
метод машинного навчання, алгоритм випадковий ліс, технологія CUDA, прискорення, коефіцієнт ефективностіАнотація
Методи машинного навчання в медичній галузі є предметом значних постійних досліджень, які в основному концентруються на моделюванні деяких людських вчинків, процесів мислення або розпізнаванні захворювань. Інші галузі застосування – це біомедичні системи, які включають генетику та аналіз ДНК. У роботі проведено дослідження з використанням методів машинного навчання для обробки даних в медицині з метою покращенням точності та часу виконання за допомогою алгоритмів розпаралелення. Класифікація є важливим інструментом у сучасному світі, де робота з великими даними використовується для прийняття різного роду рішень в уряді, економіці, медицині, тощо. Одним із методів навчання для класифікації є випадковий ліс. Використання останнього може призвести до значного покращення точності прогнозування, тобто, кращої здатності прогнозувати нові випадки даних. Відсутність необхідності надавати конкретний алгоритм ідентифікації хвороби представляє велику перевагу перед застосуванням методів машинного навчання. Дослідники мають доступ до величезних обсягів даних, і класифікація є одним із інструментів, який допомагає їм зрозуміти дані та знайти певні закономірності у них. У роботі використано датасет, який складається з записів про 70000 пацієнтів й містить 12 атрибутів. Проведено аналіз та попередню підготовку даних. Здійснено паралелізацію алгоритму Випадковий ліс з використанням функціоналу бібліотеки sklearn. При цьому час, необхідний для тренування моделі зменшився в 4.4 рази, при використанні 8 паралельних потоків, в порівнянні з послідовним тренуванням. Також проведено розпаралелення даного алгоритму на основі CUDA. В результаті час, необхідний для тренування моделі зменшився в 83.4 рази, при використанні цієї технології на GPU. У роботі здійснено обрахунок коефіцієнтів прискорення та ефективності, а також наведено детальне порівняння з послідовним алгоритмом.