CROSS-LINGUAL TRANSFORMER-BASED SCREENING OF POST-TRAUMATIC STRESS DISORDER BASED ON COMPARATIVE ANALYSIS OF BERT AND XLM-ROBERTA WITH MACHINE TRANSLATION ADAPTATION FOR UKRAINIAN LANGUAGE

Андрій ФЕДОРИЧКО; Вікторія ВИСОЦЬКА; Любомир ЧИРУН

doi:10.31891/csit-2026-1-9

Автор(и)

Андрій ФЕДОРИЧКО Національний університет «Львівська політехніка» https://orcid.org/0009-0005-1593-3481
Вікторія ВИСОЦЬКА Національний університет «Львівська політехніка» https://orcid.org/0000-0001-6417-3689
Любомир ЧИРУН Національний університет «Львівська політехніка» https://orcid.org/0000-0002-9448-1751

DOI:

https://doi.org/10.31891/csit-2026-1-9

Ключові слова:

посттравматичний стресовий розлад, ПТСР, обробка природної мови, трансформерні моделі, BERT, XLM-RoBERTa, машинний переклад, міжмовний переказ, класифікація текстів, глибинне навчання

Анотація

У статті представлено комплексне дослідження автоматизованого скринінгу посттравматичного стресового розладу (ПТСР) за допомогою трансформаторних моделей обробки природної мови в міжмовному середовищі. Метою дослідження є оцінка можливості розгортання інтелектуальної системи виявлення ПТСР українською мовою за умов обмежених локалізованих навчальних даних. Збалансований корпус із 4822 текстових записів був створений шляхом агрегації загальнодоступних наборів даних, пов'язаних з ПТСР, включаючи 2042 тексти з позитивним ПТСР та 2780 контрольних текстів, що представляють нейтральний контент та інші психологічні стани. У дослідженні порівнюється продуктивність англомовної моделі BERT (bert-base-uncased) та багатомовної моделі XLM-RoBERTa (xlm-roberta-base), застосованої до україномовного корпусу, згенерованого за допомогою машинного перекладу з використанням API Google Translate та великих мовних моделей для складних структур. Візуалізація хмари слів та семантичний аналіз підтвердили збереження основних психологічних маркерів під час перекладу. Експериментальні результати демонструють високу прогностичну ефективність для обох архітектур. Англомовна модель досягла точності 0,90 та ROC-AUC 0,962, тоді як україномовна модель досягла точності 0,85 та ROC-AUC 0,940, що суттєво перевершує існуючі українські моделі багатокласового виявлення стресу (Accuracy ~0.45) та перевищує стандартні багатомовні показники у сфері психічного здоров’я (0.78–0.82), встановлюючи надійний передовий базовий рівень для української обробки природної мови (NLP) у клінічній сфері[1]. Важливо, що показник Recall (повторне сприйняття) залишився ідентичним (0,88) в обох мовних налаштуваннях, що свідчить про високу чутливість до маркерів ПТСР, незважаючи на лексичний шум, викликаний перекладом. Мінімальна деградація AUC (2,3%) підтверджує стійкість архітектур трансформаторів до міжмовної адаптації. Результати підтверджують життєздатність поєднання машинного перекладу з багатомовними трансформаторами для швидкого розгортання систем скринінгу психічного здоров'я в середовищах з обмеженими мовними ресурсами. Запропонований конвеєр дозволяє масштабований та економічно ефективний цифровий моніторинг ПТСР, зберігаючи при цьому клінічно значущу діагностичну чутливість.

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Подати статтю

Інформація

Мова

Індексація