DEVELOPMENT AND RESEARCH OF MULTIMODAL NEURAL ARCHITECTURES FOR  HETEROGENEOUS UNBALANCED DATA IN CLASSIFICATION TASKS

Сергій МІНУХІН; Валерій РУДОЙ

doi:10.31891/csit-2026-1-3

Автор(и)

Сергій МІНУХІН Харківський національний університет радіоелектроніки https://orcid.org/0000-0002-9314-3750
Валерій РУДОЙ Харківський національний університет радіоелектроніки https://orcid.org/0009-0002-5285-7746

DOI:

https://doi.org/10.31891/csit-2026-1-3

Ключові слова:

мультимодальні дані, крос-модальна увага, контрастивне навчання, дистиляція знань, прунінг, квантизація, класифікація емоцій, автономна навігація

Анотація

У статті проведено комплексне дослідження сучасних мультимодальних нейронних архітектур для інтеграції різнорідних і частково незбалансованих даних у задачах класифікації. Розглянуто підходи ранньої та пізньої ф’юзії, гібридні архітектури з крос-модальною увагою та трансформери, що дозволяють формувати узгоджені латентні простори візуальних, аудіальних і текстових ознак. Особливу увагу приділено контрастивному навчанню (CLIP-подібні підходи, мультимодальні InfoNCE), яке забезпечує семантичну узгодженість представлень та підвищує точність класифікації при наявності нерівномірного розподілу даних і рідкісних класів. Запропоновано модель, що поєднує ранню та пізню ф’юзію з крос-модальною увагою та контрастивним навчанням для формування узгодженого спільного латентного простору. Ознаки кожної модальності обробляються спеціалізованими енкодерами, а злиття здійснюється з адаптивним зважуванням, що мінімізує вплив дисбалансу різнорідних даних і дозволяє ефективно обробляти сигнали різної природи та інтенсивності. Використання прунінгу, квантизації та knowledge distillation дозволило знизити обчислювальні витрати без втрати точності, забезпечуючи стабільну роботу моделі у реальних потокових сценаріях з обмеженими ресурсами. Отримано результати використання запропонованої моделі на датасетах BDD100K та CMU-MOSEI, які підтвердили високу ефективність моделі при обробленні різнорідних та незбалансованих даних. Для BDD100K досягнуто Accuracy 0.953, F1-score 0.956, ROC-AUC 0.947, а інтегральні показники Micro F1, Macro F1 та Weighted F1 склали 0.953, 0.949 та 0.955 відповідно; для CMU-MOSEI Accuracy 0.956, F1-score 0.969, ROC-AUC 0.968 та інтегральні показники Micro F1, Macro F1 і Weighted F1 – 0.956, 0.962 та 0.968 відповідно. Порівняльний аналіз метрик з класичними методами, SOTA-рішеннями та AutoML (B-T4SA) довели, що proposed model забезпечує стабільно вищу точність і узгодженість класифікації для всіх класів, включно з рідкісними, підтверджуючи її здатність ефективно адаптуватися до високої варіативності та дисбалансу різнорідних даних у реальних умовах.

РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МУЛЬТИМОДАЛЬНИХ НЕЙРОННИХ АРХІТЕКТУР ДЛЯ РІЗНОРІДНИХ НЕЗБАЛАНСОВАНИХ ДАНИХ У ЗАДАЧАХ КЛАСИФІКАЦІЇ

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Подати статтю

Інформація

Мова

Індексація