НЕЙРОМЕРЕЖЕВА АРХІТЕКТУРА ДЛЯ ДЕКОДУВАННЯ ТЕКСТУ ЗА РУХОМ ГУБ СПІКЕРА

Автор(и)

DOI:

https://doi.org/10.31891/csit-2023-4-7

Ключові слова:

NLP, автоматичне читання по губах, виявлення ознак, обробка звуку, нейронна мережа, режим

Анотація

У статті проаналізовано вплив використання інтерфейсу безмовного доступу (SSI), який забезпечує визначення початкової фази звукового ряду, що асоціюється з початком мовлення, на основі аналізу візерунків, на точність розпізнавання голосових команд у різних звукових середовищах. Аналіз методів розпізнавання мовного патерну диктора показав, що останні дослідження базуються на використанні нейромережевих архітектур (CNN, LSTM) для аналізу заздалегідь визначеної області інтересу - рота диктора.

У роботі протестовано систему розпізнавання команд з SSI-підходом та проведено ряд експериментів над сучасними рішеннями на основі ALR інтерфейсів. Головною метою було покращення точності розпізнавання мови у таких випадках, коли немає можливості використрвувати незашумлений аудіоряд спікера, наприклад на великій відстані від того, хто говорить, або у шумному оточенні. Отримані результати показали, що тренування нейронної мережі на графічному прискорювачі дозволило скоротити час навчання у 26,2 рази, використовуючи навчальну вибірку із високої роздільної здатності та розміром виділеної зони рота, що становить 150 × 100 пікселів. Результати аналізу обраних метрик оцінки якості розпізнавання мови (послівна точність розпізнавання (WRR), послівна помилка розпізнавання (WER) та посимвольна помилка розпізнавання (CER)) показав, що максимальна точність послівного розпізнавання промови спікера становить 96,71% та досягається після 18 епох навчання. Якщо оцінювати посимвольну точність розпізнавання візем, то найвищий показник можна отримати після 13 епохи навчання. Майбутні дослідження будуть зосереджені на використанні камер глибини та методів стереозору із збільшеною частотою кадрів задля подальшого збільшення точності декодування голосової команди в умовах великого фонового зашумлення.

Для подальшого розвитку цієї роботи можна застосувати алгоритми шумозаглушення до аудіосигналу або вирішити проблему виявлення виразів обличчя в умовах низької яскравості або іншого кута нахилу обличчя.

##submission.downloads##

Опубліковано

2023-12-28

Як цитувати

БАРКОВСЬКА, О., & ХОЛЄВ, В. (2023). НЕЙРОМЕРЕЖЕВА АРХІТЕКТУРА ДЛЯ ДЕКОДУВАННЯ ТЕКСТУ ЗА РУХОМ ГУБ СПІКЕРА. Computer Systems and Information Technologies, (4), 52–59. https://doi.org/10.31891/csit-2023-4-7