ПРОГНОЗУВАННЯ РЕЗУЛЬТАТІВ ВИБОРІВ У ФРАНЦІЇ НА ОСНОВІ ДАНИХ З TWITTER

Автор(и)

  • ТАРАС РУДНИК Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0001-9492-0374
  • ОЛЕГ ЧЕРТОВ Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0003-0087-1028

DOI:

https://doi.org/10.31891/csit-2022-4-4

Ключові слова:

політичний рейтинг, соціологічне опитування, Twitter, Python, Selenium, збір даних, машинне навчання, обробка природної мови

Анотація

У цій статті представлено дослідження збору, зберігання та аналізу даних із Twitter для прогнозування результатів президентських виборів у Франції у порівнянні з соціологічними опитуваннями. Першим і, мабуть, найважливішим кроком дослідження є збір, зберігання та очищення даних, оскільки весь результат залежить від кількості та якості даних. На наступному етапі дослідження проводиться аналіз наборів даних. В кінці надається повний звіт і візуалізація отриманих результатів. У дослідженні ми пропонуємо сучасну техніку, математичні алгоритми та підходи машинного навчання для аналізу великих обсягів даних із соціальної мережі Twitter, щоб спрогнозувати результати президентських виборів у Франції 2022 року. Отриманий результат порівнюється із даними соціологічних опитувань та фактичними результатами виборів.

У проведеному дослідженні порівнюються сучасні види медіа, щоб вибрати найкраще для прогнозування виборів. Вибрана соціальна мережа Twitter як така, що має найбільш відповідні дані та доступність для завантаження великої кількості корисної інформації. Підхід, заснований на використанні мови програмування Python, емуляції браузера Selenium і бази даних MongoDB, використовувався для збору, зберігання і очищення даних про головних кандидатів на виборах у Франції – Еммануеля Макрона і Марін Ле Пен. Дослідження проводилося з серпня 2021 року до самих виборів у квітні 2022 року. Визначений результат порівнюється з соціологічними опитуваннями та результатами виборів і показує, що аналіз даних соціальних мереж може бути хорошою альтернативою традиційним соціологічним опитуванням, оскільки він показує ті самі тенденції місяць за місяцем і добре передбачив перемогу Еммануеля Макрона на виборах. Більше того, запропонований підхід має свої переваги порівняно з соціологічними опитуваннями, такі як: завжди свіжа та наближена до реального часу інформація, ціна дослідження значно нижча та може бути повторно використана для наступних парламентських чи президентських виборів із невеликою модифікацією.

Дослідження можна розширити та адаптувати для інших країн. Наразі запропоновані алгоритми та математичні моделі показали хороші результати на виборах у Франції та Україні. Добре працюють з англійською, французькою, українською та російською мовами. Це дозволяє нам стверджувати, що вони також добре працюватимуть з іншими латинськими чи кириличними алфавітами, але для азіатських чи арабських мов потрібні додаткові дослідження. Twitter є хорошим вибором для країн Європи та Америки.

##submission.downloads##

Опубліковано

2022-12-29

Як цитувати

РУДНИК, Т., & ЧЕРТОВ, О. (2022). ПРОГНОЗУВАННЯ РЕЗУЛЬТАТІВ ВИБОРІВ У ФРАНЦІЇ НА ОСНОВІ ДАНИХ З TWITTER. Computer Systems and Information Technologies, (4), 27–33. https://doi.org/10.31891/csit-2022-4-4