CONVOLUTIONAL NEURAL NETWORK-BASED SOUND SOURCE SEPARATION IN THE TIME-FREQUENCY DOMAIN

Олег ТОМАШЕВСЬКИЙ; Орест ТКАЧУК

doi:10.31891/csit-2026-1-15

Автор(и)

Олег ТОМАШЕВСЬКИЙ Національний університет «Львівська політехніка» https://orcid.org/0009-0009-9134-7520
Орест ТКАЧУК Національний університет «Львівська політехніка» https://orcid.org/0009-0007-1216-6787

DOI:

https://doi.org/10.31891/csit-2026-1-15

Ключові слова:

комп’ютерні науки, штучний інтелект (AI), згорткові нейронні мережі, аналіз аудіоданих, обробка аудіосигналів, розділення звукових джерел

Анотація

У роботі розглядається задача розділення звукових джерел у змішаних аудіосигналах у часово-частотній області. Досліджується застосування згорткових нейронних мереж для ізоляції окремих акустичних компонентів зі складних аудіоміксів, у яких декілька джерел перекриваються як у часі, так і за частотою. Наявність такого перекриття суттєво ускладнює процес розділення та підвищує вимоги до стабільності й структурної узгодженості застосованих моделей. Запропонований підхід базується на перетворенні аудіосигналів за допомогою віконного перетворення Фур’є та поданні аудіоміксів у вигляді спектрограм, що зберігають як часові, так і спектральні характеристики звукових компонентів. До отриманих представлень застосовується стратегія бінарного маскування з метою структурного спрощення задачі розділення. Згорткова нейронна мережа використовується для прогнозування масок, що відповідають окремим звуковим джерелам, таким як вокал, бас, барабани та інші компоненти. Формулювання задачі через маскування забезпечує вибіркове виділення спектральних областей, пов’язаних з конкретними джерелами, та сприяє впровадженню гібридної схеми обробки, яка поєднує елементи класифікації та регресії в межах єдиної нейронної архітектури. Методологія дослідження включає проектування архітектури мережі, підготовку вхідних даних на основі спектрограм, навчання моделі на багатокомпонентних аудіоміксах і перевірку якості розділення з використанням критеріїв узгодженості реконструкції. Особливу увагу приділено забезпеченню стабільної збіжності моделі та збереженню змістовних акустичних структур у передбачених масках. Отримані результати демонструють стабільну ізоляцію звукових компонентів і сталу ефективність на тренувальному та валідаційному наборах даних. Кількісна оцінка показує точність розділення 0.772 для вокалу, 0.766 для ударних, 0.944 для басів та 0.764 для інших джерел, при цьому відповідні значення середньоквадратичної помилки знаходяться в діапазоні від 0.044 до 0.203 для досліджених категорій. Найвищу ефективність отримано для розділення басів, що пояснюється чітко вираженою низькочастотною спектральною структурою цього джерела. Оцінювання на рівні сигналу за метриками SI-SDR, SDR та SNR показало значення в діапазоні від -1.24 до 4.10 дБ (SI-SDR), від -0.26 до 4.59 дБ (SDR) та від 1.16 до 5.09 дБ (SNR), при цьому найвищі значення спостерігалися для басових і вокальних компонентів, що узгоджується з результатами оцінювання за точністю. Результати підтверджують ефективність поєднання бінарного маскування зі згортковою обробкою спектрограм для обчислювально ефективного розділення звукових джерел. Запропонований підхід, реалізований на основі компактної нейронної архітектури з 323,233 параметрами моделі, може бути застосований у системах музичного виробництва, рішеннях для покращення мовлення, інтелектуальних платформах аналізу аудіоданих та інших середовищах обробки звуку, що потребують надійних і легковагових механізмів розділення.

РОЗДІЛЕННЯ ЗВУКОВИХ ДЖЕРЕЛ У ЧАСОВО-ЧАСТОТНІЙ ОБЛАСТІ НА ОСНОВІ ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ

Автор(и)

DOI:

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Подати статтю

Інформація

Мова

Індексація