ДЕТЕРМІНОВАНИЙ МЕТОД ГЕНЕРУВАННЯ ТЕКСТОВИХ КОРПУСІВ НА ОСНОВІ СЛОВНИКА

Автор(и)

  • Яків ЮСИН Національний технічний університет України «Київський Політехнічний Інститут імені Ігоря Сікорського» https://orcid.org/0000-0001-6971-3808
  • Наталія РИБАЧОК Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0002-8133-1148

DOI:

https://doi.org/10.31891/csit-2024-3-9

Ключові слова:

оброблення природної мови, корпуси текстів, генерування корпусів, забезпечення якості програмного забезпечення, аналіз тональності тексту

Анотація

У даній роботі розглядається проблематика вирішення задач інженерії програмного забезпечення при розробленні інформаційних систем оброблення природної мови. В якості конкретної задачі даної проблематики виділено задачу генерування корпусів текстових даних. Проведено аналіз базового методу CorDeGen – одного із методів генерування корпусів, спеціально розроблених для визначеної проблематики. У даному дослідженні показано, що цей метод має обмежену сферу застосування через використання «штучних» термів для наповнення текстів.
У роботі запропоновано новий модифікований метод DBCorDeGen, що вирішує даний недолік завдяки використанню додаткового словника термів, що подається на вхід методу. Метод DBCorDeGen зберігає більшість характерних ознак базового методу, що є важливими для його використання при вирішенні задач інженерії програмного забезпечення: детермінованість, швидкодію (включаючи можливість поєднання з паралельною модифікацією), можливість апріорного опису структури та властивостей генерованого корпусу. Єдиним погіршенням відносно базового методу є збільшення кількості вхідних параметрів, проте, у порівнянні з іншими методами генерування корпусів, що представленні у літературі, воно є відносно малим, а за його рахунок значно збільшується сфера застосування корпусів, що генеровані цим методом.
В якості експериментальної перевірки запропонованого модифікованого методу DBCorDeGen розглянуто задачу аналізу тональності текстів генерованого корпусу. У роботі показано, що при використанні базового методу CorDeGen неможливо отримати результати аналізу тональності, відмінні від нейтральної тональності для всіх текстів, а при використанні запропонованого методу можливо отримувати різні результати, використовуючи різні словники. Таким чином підтверджено те, що запропонований метод DBCorDeGen має більшу сферу застосування, ніж базовий метод.

##submission.downloads##

Опубліковано

2024-09-26

Як цитувати

ЮСИН, Я., & РИБАЧОК, Н. (2024). ДЕТЕРМІНОВАНИЙ МЕТОД ГЕНЕРУВАННЯ ТЕКСТОВИХ КОРПУСІВ НА ОСНОВІ СЛОВНИКА. Computer Systems and Information Technologies, (3), 67–73. https://doi.org/10.31891/csit-2024-3-9