ПРАВОВІ ТА ЕТИЧНІ ЗАСАДИ ПОБУДОВИ РЕПРЕЗЕНТАТИВНИХ ДАТАСЕТІВ ДЛЯ ВИЯВЛЕННЯ ПРОЯВІВ КІБЕРБУЛІНГУ У ТЕКСТОВОМУ КОНТЕНТІ
DOI:
https://doi.org/10.31891/csit-2025-3-14Ключові слова:
кібербулінг, етичні аспекти, правові засади, репрезентативність даних, текстовий контент, датасет, дискримінація, штучний інтелект, багатокритеріальна оптимізація, машинне навчанняАнотація
Статтю присвячено розробці метод формування репрезентативних датасетів текстових даних для виявлення проявів кібербулінгу у текстовому контенті з урахуванням етичних і правових засад. Основна увага зосереджена на забезпеченні справедливого та рівного представництва різних демографічних груп у текстових вибірках, що є критично важливим для створення недискримінаційних та соціально відповідальних моделей штучного інтелекту. Акцент зроблено на дотриманні ключових принципів етики – недопущенні шкоди, уникненні упередженості та забезпеченні репрезентативності – а також положень міжнародного законодавства, зокрема Загального регламенту про захист даних.
Запропоновано метод формування репрезентативних датасетів текстових даних для виявлення проявів кібербулінгу у текстовому контенті з урахуванням етичних засад, що передбачає такі етапи як попередня обробка текстових даних, аналіз розподілів за етичними аспектами (вік, гендер, релігія) та репрезентативне коригування шляхом багатокритеріальної оптимізації. Для класифікації текстових зразків за етичними ознаками використано навчання моделей машинного навчання на підготовлених збалансованих вибірках із використанням відповідних еталонних датасетів. Порівняння здійснюється на основі офіційних демографічних даних України, що забезпечує достовірність оцінки відхилень.
У результаті застосування розробленого методу сформовано репрезентативну вибірку з відхиленням пропорцій етичних груп від цільових значень у межах 0,00–0,04%. Отримані статистичні метрики підтвердили ефективність обраних моделей і продемонстрували високу відповідність результатів вимогам етичної відповідальності. Аналіз показав, що вихідні датасети містили дисбаланси, які успішно усунуто шляхом застосування багатокритеріальної оптимізації та аугментації даних. Розроблений підхід може бути інтегрований у процеси підготовки навчальних вибірок для етично орієнтованих систем штучного інтелекту, які здійснюють автоматизоване виявлення проявів кібербулінгу у текстовому контенті, знижуючи ризики відтворення соціальних упереджень і підвищуючи довіру до алгоритмічних рішень.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Олена СОБКО, Арчіл ЧОЧІА

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.