ПОКРАЩЕННЯ ЯКОСТІ ПОШУКУ СПАМУ В КОМЕНТАРЯХ ЗА ДОМОГОГОЮ АНАЛІЗУ ТОНАЛЬНОСТІ З ВИКОРИСТАННЯМ МАШИННОГО НАВЧАННЯ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2023-1-6

Ключові слова:

аналіз тональності, пошук спаму, нейромережі, аналіз тексту, Python

Анотація

 

У наш час люди все більше і більше проводять часу в Інтернеті та відвідують різноманітні сайти. Багато з цих сайтів мають коментарі, що допомагають людям приймати рішення. Так, багато відвідувачів інтернет-магазину дивиться на відгуки до товару перед покупкою, а користувачі відеохостингів часто орієнтуються на коментарі перед переглядом. Проте не всі коментарі однаково корисні, досить часто можна зустріти спам-коментарі які не несуть жодної корисної інформації. Особливо сильно зросла кількість спам-коментарі під час повномасштабного вторгнення, коли ворог за допомогою ботів намагається посіяти паніку та заспамити Інтернет простір. Часто такі коментарі відрізняються за емоційним забарвленням від звичайних, тому існує сенс використовувати аналіз тональності для їх виявлення. Метою дослідження є покращення якості пошуку спаму за допомогою визначення тональності коментарів з використанням машинного навчання. В результаті було обрано LSTM нейромережу та датасет для її навчання та перевірки. Було описано три метрики для оцінки якості нейромережі, а датасет було проаналізовано та розбито та навчальну, валідаційну та тестову вибірки. Навчання нейромережі відбувалося на платформу Google Colab з використанням GPU. У результаті нейромережа змогла оцінювати тональність коментаря по шкалі від 1 до 5, де чим вище оцінка – тим більш емоційно-позитивний відгук і навпаки. Після навчання нейромережа досягла точності у 76.3% на тестовому датасеті, а серденя квадратична помилка становила 0.6478, що позначає що нейромережа помиляється менше ніж на один клас. При використанні алгоритму наївного байєсівського класифікатора без аналізу тональності, точність склала 88.3%, тоді як з параметром тональності тексту точність зросла до 93.1%. При використанні алгоритму випадкового лісу без аналізу тональності, точність склала 90.8%, тоді як з параметром тональності тексту точність зросла до 95.7%. В результаті що додавання параметру тональності підвищило точність для обох моделей. Значення приросту точності становить 4.8% для наївного байєсівського класифікатора та 4.9% для випадкового лісу.

##submission.downloads##

Опубліковано

2023-03-30

Як цитувати

Єрмолаєв, О., & Кулаковська, І. (2023). ПОКРАЩЕННЯ ЯКОСТІ ПОШУКУ СПАМУ В КОМЕНТАРЯХ ЗА ДОМОГОГОЮ АНАЛІЗУ ТОНАЛЬНОСТІ З ВИКОРИСТАННЯМ МАШИННОГО НАВЧАННЯ. Computer Systems and Information Technologies, (1), 47–52. https://doi.org/10.31891/csit-2023-1-6