ДЕТЕРМІНОВАНИЙ МЕТОД ГЕНЕРУВАННЯ ТЕКСТОВИХ КОРПУСІВ НА ОСНОВІ СЛОВНИКА
DOI:
https://doi.org/10.31891/csit-2024-3-9Ключові слова:
оброблення природної мови, корпуси текстів, генерування корпусів, забезпечення якості програмного забезпечення, аналіз тональності текстуАнотація
У даній роботі розглядається проблематика вирішення задач інженерії програмного забезпечення при розробленні інформаційних систем оброблення природної мови. В якості конкретної задачі даної проблематики виділено задачу генерування корпусів текстових даних. Проведено аналіз базового методу CorDeGen – одного із методів генерування корпусів, спеціально розроблених для визначеної проблематики. У даному дослідженні показано, що цей метод має обмежену сферу застосування через використання «штучних» термів для наповнення текстів.
У роботі запропоновано новий модифікований метод DBCorDeGen, що вирішує даний недолік завдяки використанню додаткового словника термів, що подається на вхід методу. Метод DBCorDeGen зберігає більшість характерних ознак базового методу, що є важливими для його використання при вирішенні задач інженерії програмного забезпечення: детермінованість, швидкодію (включаючи можливість поєднання з паралельною модифікацією), можливість апріорного опису структури та властивостей генерованого корпусу. Єдиним погіршенням відносно базового методу є збільшення кількості вхідних параметрів, проте, у порівнянні з іншими методами генерування корпусів, що представленні у літературі, воно є відносно малим, а за його рахунок значно збільшується сфера застосування корпусів, що генеровані цим методом.
В якості експериментальної перевірки запропонованого модифікованого методу DBCorDeGen розглянуто задачу аналізу тональності текстів генерованого корпусу. У роботі показано, що при використанні базового методу CorDeGen неможливо отримати результати аналізу тональності, відмінні від нейтральної тональності для всіх текстів, а при використанні запропонованого методу можливо отримувати різні результати, використовуючи різні словники. Таким чином підтверджено те, що запропонований метод DBCorDeGen має більшу сферу застосування, ніж базовий метод.