ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ СЕМАНТИЧНОЇ СЕГМЕНТАЦІЇ В РЕАЛЬНОМУ ЧАСІ
DOI:
https://doi.org/10.31891/csit-2024-4-11Ключові слова:
семантична сегментація, обробка зображень в реальному часі, нейронні мережі, машинне навчання, глибоке навчанняАнотація
Семантична сегментація є фундаментальним завданням комп'ютерного зору, яке дозволяє машинам інтерпретувати та розуміти зображення на рівні пікселів, забезпечуючи глибше розуміння складу сцени. Призначаючи кожному пікселю клас, ця технологія є критично важливою для застосувань, що потребують детального візуального сприйняття, таких як автономне водіння, робототехніка, медична візуалізація та доповнена реальність. Ця стаття пропонує всебічний порівняльний аналіз моделей глибокого навчання, спеціально розроблених для семантичної сегментації в реальному часі, з акцентом на їх показниках продуктивності, архітектурі та різних контекстах застосування. Дослідження порівнює сучасні моделі глибокого навчання, включаючи PIDNet, PP-LiteSeg, BiSeNet, SFNet та інші, використовуючи ключові метрики, такі як середнє перетинання над об'єднанням (mIoU) та кількість кадрів за секунду (FPS), а також апаратні характеристики, на яких їх тестували. Моделі, такі як PIDNet, відомі своєю багатогілковою архітектурою, акцентують увагу на деталях, контексті та межах для підвищення точності сегментації без шкоди для швидкості. З іншого боку, моделі на кшталт PP-LiteSeg з основою Short-Term Dense Concatenate Network (STDCNet) відзначаються зниженням обчислювальної складності при збереженні конкурентоспроможної точності та швидкості роботи, що робить їх ідеальними для середовищ із обмеженими ресурсами. Проведений аналіз оцінює компроміси між точністю та обчислювальною ефективністю, використовуючи еталонні набори даних, такі як Cityscapes і DeepScene. Додатково ми досліджуємо адаптивність цих моделей до різних операційних сценаріїв, зокрема на пристроях із низьким енергоспоживанням, таких як NVIDIA Jetson Nano, де обчислювальні ресурси обмежені. Ця дискусія також охоплює виклики, з якими стикаються в реальних умовах, включаючи підтримання надійності в різних середовищах і досягнення високої продуктивності з мінімальною затримкою. У цій роботі підкреслено сильні та слабкі сторони, а також практичні аспекти розглянутих моделей. Проведений аналіз може бути корисним для дослідників і практиків, у сфері семантичної сегментації в реальному часі.