АНСАМБЛЕВА ТЕХНОЛОГІЯ БЕЗ ВЧИТЕЛЯ-З ВЧИТЕЛЕМ З НЕІТЕРАТИВНИМ АЛГОРИТМОМ НАВЧАННЯ ДЛЯ АНАЛІЗУ КОРОТКИХ НАБОРІВ БІОМЕДИЧНИХ ДАНИХ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2023-4-9

Ключові слова:

підхід до малих даних, неітеративне навчання, ансамблеве навчання, технологія без вчителя-з вчителем, біомедична інженерія

Анотація

Підвищення точності інтелектуального аналізу даних є важливою задачею в різних прикладних областях. Існуючі методи машинного навчання не завжди забезпечують достатній рівень точності класифікації для їх використання на практиці. Саме тому, в останні роки почали розвиватися гібридні ансамблеві методи інтелектуального аналізу. В їх основі покладено сумісне використання процедур кластеризації та класифікації. Такий підхід забезпечує підвищення точності класифікатора на основі машинного навчання за рахунок розширення простору вхідних даних задачі результатами роботи кластеризатора.

У цій роботі розглядаються завдання модифікації та удосконалення подібної технології аналізу коротких даних. В основі модифікації покладено використання кластеризації з виходом на першому кроці методу для підвищення точності роботи усього методу. Незважаючи на високу точність роботи, такий підхід вимагає суттєвого розширення входів фінального лінійного класифікатора (до початкових входів додаються мітки отриманих кластерів). З метою уникнення цього недоліку, у статті запропоновано удосконалення, в основі якого покладено введеня нової процедури класифікації на першому кроці методу та використання результатів її рботи для заміни усіх початкових входів задачі. Паралельно з нею виконується кластеризації з врахуванням вихідного атрибуту, результати якої додаються до вихода класифікатора першого кроку. Таким чином відбувється формування розширеного набору даних суттєво меншої вимірності в порівнянні із існуючим методом (тут вже немає великої кількості початкових ознак, що характерно для задач біомедичної  нженерії). Це зменшує час роботи методу і збільшує його генералізаційні властивості.

Моделювання роботи методу відбувалося на основі використання корткого набору даних, який міститься у відкритому репозиторії. Після процедур попереднього опрацювання, набір даних налічував лише 294 вектори кожен з яких характеризувався 18 атрибутами. Класифікація даних відбувалася із використанням SGTM neural-like structure. Цей лінійний класифікатор забезпечує високу точність роботи. Окрім цього він не передбачає виконання ітераційної процедури навчання та додаткового налаштування параметрів роботи. Кластеризація даних відбувалася із використанням методу k-means. Такий вибір обумовлено як простотю так і швидкодією його роботи.

Пошук оптимальної кількості кластерів методу k-means відбувався із використанням 4 різних методів. Усі вони продемонстрували різні результати. Саме тому, у статті проведено експерименти щодо оцінки впливу різної кількості кластерів (від 3 до 7) на точність роботи усіх 4 алгоритмів розробленої технології. Експериментальним шляхом встановлено підвищення точності роботи запропонованої технолоігї у порівнянні з лінійним класифікатором та існучим гібридним методом. Окрім цього, за рахунок зменшення входів фінального класифікатора, розроблена технологія зменшує тривалість процедури навчання в порівнянні з базовим методм. Все це забезпечує можливість використання запропонованої технології під час розвязання різноманітних прикладних задач медичної діагностики, зокрема на основі аналізу коротких наборів даних..

Ключові слова: підхід до малих даних, неітеративне навчання, ансамблеве навчання, технологія без вчителя-з вчителем, біомедична інженерія.

##submission.downloads##

Опубліковано

2023-12-28

Як цитувати

ІЗОНІН, І. (2023). АНСАМБЛЕВА ТЕХНОЛОГІЯ БЕЗ ВЧИТЕЛЯ-З ВЧИТЕЛЕМ З НЕІТЕРАТИВНИМ АЛГОРИТМОМ НАВЧАННЯ ДЛЯ АНАЛІЗУ КОРОТКИХ НАБОРІВ БІОМЕДИЧНИХ ДАНИХ. Computer Systems and Information Technologies, (4), 67–74. https://doi.org/10.31891/csit-2023-4-9