ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЮ АНАЛІЗУ ТЕКСТУ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА

Автор(и)

DOI:

https://doi.org/10.31891/csit-2022-4-2

Ключові слова:

анотування, текст, вхідні данні, мова, реформування, обчислення, графічний процесор, сумаризація

Анотація

Глобальне поширення та використання систем дистанційного та он-лайн навчання на різних освітніх рівнях висуває ряд вимог до існуючих систем та потребує розширення функціоналу. Проблемою сьогодення в Україні є нестабільна робота енергетичної інфраструктури через часті ворожі обстріли, тому, приєднуватися до онлайн занять вчасно, слухати повноцінні лекції лекторів та учителів, приймати участь у конференціях та майстер-класах у повному обсязі, жителям України є проблематичним. Це обумовлює необхідність забезпечити можливість ознайомлення із навчальними матеріалами у зручний час узручному для розуміння та засвоєння вигляді. Запис лекції забезпечує доступ до звукових файлів, які припускаються прослуховування, але не призначені для друкованого відтворення. Тому, розширення існуючих цифрових освітніх платформ можливістю формування анотації (резюме, реферату) лекції та подання її у вигляді текстографічних матеріалів для подальшого використання слухачами курсу на паперових носіях, є завданням актуальним та здатне підвищити оцінку якості дистанційного освітнього ресурсу з погляду змістовно-методологічного аспекту. Метою дослідження є створення узагальненої гібридної моделі автоматичного анотування промови спікера, яка надає можливість розпізнавання мовлення, перетворення наявних даних в текст і останнім етапом проведення сумаризації даного тексту, зберігаючи лише важливу змістовну частину лекції. Поставлену мету було досягнуто завдяки створенню узагальненої гібридної моделі автоматичного анотування вхідних аудіо даних, враховуючи ефективність та особливості існуючих методів автоматичного анотування тексту, отриманого після конвертації промови у текст. Новизною даного дослідження є використання слів маркерів на етапі сумаризації тексту, а також порівняння ефективності обробки даних на різних етапах роботи даної моделі при використанні різного апаратного забезпечення. Результати обчислювальних експериментів на графічних процесорах із архітектурою Turing показали, що при збільшенні обсягів вхідних даних майже у 30 разів, час також збільшується пропорційно, але використання більш потужного графічного процесора NVIDIA Tesla T4 дає прискорення більше ніж у 2.5 рази порівняно із графічним процесором NVIDIA GeForce GTX 1650 Mobile як для англійської, так і для украінської мови. Для текстів украінською мовою отримане стиснення тексту (відношення кількості сліх вхідного текстового масиву до кількості слів в отриманій анотації) становить 89,7%, для англійської мови – 94,15%. Запропоноване використання слів-маркерів показало підвищення логічного зв’язку вхідної інформації між собою, але зобовязує спікерів використовувати попередньо визначені слова-маркери для збереженн структури сформованої анотації.

##submission.downloads##

Опубліковано

2022-12-29

Як цитувати

БАРКОВСЬКА, О. (2022). ДОСЛІДЖЕННЯ РОБОТИ МОДУЛЮ АНАЛІЗУ ТЕКСТУ У ЗАПРОПОНОВАНІЙ МОДЕЛІ АВТОМАТИЧНОГО АНОТУВАННЯ ПРОМОВИ СПІКЕРА. Computer Systems and Information Technologies, (4), 13–19. https://doi.org/10.31891/csit-2022-4-2