РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МУЛЬТИМОДАЛЬНИХ НЕЙРОННИХ АРХІТЕКТУР ДЛЯ РІЗНОРІДНИХ НЕЗБАЛАНСОВАНИХ ДАНИХ У ЗАДАЧАХ КЛАСИФІКАЦІЇ
DOI:
https://doi.org/10.31891/csit-2026-1-3Ключові слова:
мультимодальні дані, крос-модальна увага, контрастивне навчання, дистиляція знань, прунінг, квантизація, класифікація емоцій, автономна навігаціяАнотація
У статті проведено комплексне дослідження сучасних мультимодальних нейронних архітектур для інтеграції різнорідних і частково незбалансованих даних у задачах класифікації. Розглянуто підходи ранньої та пізньої ф’юзії, гібридні архітектури з крос-модальною увагою та трансформери, що дозволяють формувати узгоджені латентні простори візуальних, аудіальних і текстових ознак. Особливу увагу приділено контрастивному навчанню (CLIP-подібні підходи, мультимодальні InfoNCE), яке забезпечує семантичну узгодженість представлень та підвищує точність класифікації при наявності нерівномірного розподілу даних і рідкісних класів. Запропоновано модель, що поєднує ранню та пізню ф’юзію з крос-модальною увагою та контрастивним навчанням для формування узгодженого спільного латентного простору. Ознаки кожної модальності обробляються спеціалізованими енкодерами, а злиття здійснюється з адаптивним зважуванням, що мінімізує вплив дисбалансу різнорідних даних і дозволяє ефективно обробляти сигнали різної природи та інтенсивності. Використання прунінгу, квантизації та knowledge distillation дозволило знизити обчислювальні витрати без втрати точності, забезпечуючи стабільну роботу моделі у реальних потокових сценаріях з обмеженими ресурсами. Отримано результати використання запропонованої моделі на датасетах BDD100K та CMU-MOSEI, які підтвердили високу ефективність моделі при обробленні різнорідних та незбалансованих даних. Для BDD100K досягнуто Accuracy 0.953, F1-score 0.956, ROC-AUC 0.947, а інтегральні показники Micro F1, Macro F1 та Weighted F1 склали 0.953, 0.949 та 0.955 відповідно; для CMU-MOSEI Accuracy 0.956, F1-score 0.969, ROC-AUC 0.968 та інтегральні показники Micro F1, Macro F1 і Weighted F1 – 0.956, 0.962 та 0.968 відповідно. Порівняльний аналіз метрик з класичними методами, SOTA-рішеннями та AutoML (B-T4SA) довели, що proposed model забезпечує стабільно вищу точність і узгодженість класифікації для всіх класів, включно з рідкісними, підтверджуючи її здатність ефективно адаптуватися до високої варіативності та дисбалансу різнорідних даних у реальних умовах.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2026 Сергій МІНУХІН, Валерій РУДОЙ

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
