РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МУЛЬТИМОДАЛЬНИХ НЕЙРОННИХ АРХІТЕКТУР ДЛЯ РІЗНОРІДНИХ НЕЗБАЛАНСОВАНИХ ДАНИХ У ЗАДАЧАХ КЛАСИФІКАЦІЇ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2026-1-3

Ключові слова:

мультимодальні дані, крос-модальна увага, контрастивне навчання, дистиляція знань, прунінг, квантизація, класифікація емоцій, автономна навігація

Анотація

У статті проведено комплексне дослідження сучасних мультимодальних нейронних архітектур для інтеграції різнорідних і частково незбалансованих даних у задачах класифікації. Розглянуто підходи ранньої та пізньої ф’юзії, гібридні архітектури з крос-модальною увагою та трансформери, що дозволяють формувати узгоджені латентні простори візуальних, аудіальних і текстових ознак. Особливу увагу приділено контрастивному навчанню (CLIP-подібні підходи, мультимодальні InfoNCE), яке забезпечує семантичну узгодженість представлень та підвищує точність класифікації при наявності нерівномірного розподілу даних і рідкісних класів. Запропоновано модель, що поєднує ранню та пізню ф’юзію з крос-модальною увагою та контрастивним навчанням для формування узгодженого спільного латентного простору. Ознаки кожної модальності обробляються спеціалізованими енкодерами, а злиття здійснюється з адаптивним зважуванням, що мінімізує вплив дисбалансу різнорідних даних і дозволяє ефективно обробляти сигнали різної природи та інтенсивності. Використання прунінгу, квантизації та knowledge distillation дозволило знизити обчислювальні витрати без втрати точності, забезпечуючи стабільну роботу моделі у реальних потокових сценаріях з обмеженими ресурсами. Отримано результати використання запропонованої моделі на датасетах BDD100K та CMU-MOSEI, які підтвердили високу ефективність моделі при обробленні різнорідних та незбалансованих даних. Для BDD100K досягнуто Accuracy 0.953, F1-score 0.956, ROC-AUC 0.947, а інтегральні показники Micro F1, Macro F1 та Weighted F1 склали 0.953, 0.949 та 0.955 відповідно; для CMU-MOSEI  Accuracy 0.956, F1-score 0.969, ROC-AUC 0.968 та інтегральні показники Micro F1, Macro F1 і Weighted F1 – 0.956, 0.962 та 0.968 відповідно. Порівняльний аналіз метрик з класичними методами, SOTA-рішеннями та AutoML (B-T4SA) довели, що proposed model забезпечує стабільно вищу точність і узгодженість класифікації для всіх класів, включно з рідкісними, підтверджуючи її здатність ефективно адаптуватися до високої варіативності та дисбалансу різнорідних даних у реальних умовах.

##submission.downloads##

Опубліковано

2026-03-26

Як цитувати

МІНУХІН, С., & РУДОЙ, В. (2026). РОЗРОБЛЕННЯ ТА ДОСЛІДЖЕННЯ МУЛЬТИМОДАЛЬНИХ НЕЙРОННИХ АРХІТЕКТУР ДЛЯ РІЗНОРІДНИХ НЕЗБАЛАНСОВАНИХ ДАНИХ У ЗАДАЧАХ КЛАСИФІКАЦІЇ. Computer Systems and Information Technologies, (1), 28–40. https://doi.org/10.31891/csit-2026-1-3