ОСОБЛИВОСТІ РЕАЛІЗАЦІЇ ПРОГРАМНОЇ СИСТЕМИ ІДЕНТИФІКАЦІЇ МОВЦЯ
DOI:
https://doi.org/10.31891/csit-2022-4-5Ключові слова:
програмна система ідентифікації мовця, вейвлет, діаграми, UML, розпізнавання мовиАнотація
Обробка мовного сигналу з метою ідентифікації мовця є найбільш актуальною і популярною в задачах, пов'язаних з мовною обробкою. Постійний і високий попит на програмні реалізації систем ідентифікації дикторів існує в різних сферах: від контролю доступу користувачів до голосових послуг виявлення злочинців. Проте, враховуючи відсутність чіткого наукового обґрунтування алгоритмів ідентифікації, значну складність їх реалізації, а також точність ідентифікації особистості, можна відзначити, що ці завдання в цілому ще далекі від свого остаточного вирішення.
Запропонована архітектура програмної системи ідентифікації у вигляді діаграм класів і послідовностей. Досліджено основні критерії оцінки точності ідентифікації мовця та виявлено можливі джерела втрати точності ідентифікації мовця, які можуть бути використані при побудові системи ідентифікації. Створена програмна система на основі запропонованої архітектури та раніше розроблених алгоритмів і методів ідентифікації.
На основі проведених досліджень можна зробити наступні висновки: розглянуто підходи до побудови існуючих систем ідентифікації диктора; досліджено основні критерії оцінки точності ідентифікації диктора та визначено основні джерела втрати точності при ідентифікації диктора; розглянуто структурну побудову системи ідентифікації диктора з урахуванням виявлених джерел втрати точності при ідентифікації диктора; запропонована архітектура системи ідентифікації мовця мовою UML у вигляді діаграм класів і послідовностей; побудовано програмний комплекс, що реалізує функції ідентифікації мовного сигналу за методами та алгоритмом, запропонованими в попередніх роботах.
Програмна система використовує метод ранжування на основі трьох різних критеріїв. До них відносяться: розрахунок близькості двовимірних кривих функції щільності ймовірності для частоти основного тону і розташування в спектрі трьох частотних діапазонів, які виділяються з мови, записаної в мовний сигнал; розрахунок близькості кривих функції щільності ймовірності для кожної з цих ознак окремо; розрахунок ступеня близькості абсолютних максимумів формантних спектрів, виділених з мови, записаної в мовному сигналі.