ПОВОРОТНО-ІНВАРІАНТНЕ ПОДАННЯ ЗОБРАЖЕНЬ ЧЕРЕЗ ВИЛУЧЕННЯ ОРІЄНТАЦІЙНИХ ОЗНАК У ЛАТЕНТНОМУ ПРОСТОРІ ЕНКОДЕРА
DOI:
https://doi.org/10.31891/csit-2025-2-13Ключові слова:
варіаційний автокодер, відокремлення ознак, інваріантність до повороту, семантичне подання, згорткова архітектура, класифікація зображень, алгоритми, машинне навчанняАнотація
У багатьох задачах комп'ютерного зору ефективне розпізнавання об'єктів ускладнюється довільною орієнтацією об'єктів сцени. Забезпечення інваріантності до орієнтації є критичним для підвищення точності класифікації та зменшення помилок, пов'язаних із різним розташуванням об'єктів. Це особливо важливо в умовах реального середовища, де орієнтація об'єктів рідко є контрольованою.
Метою дослідження є розроблення методу, що дає змогу відокремити ознаки повороту від семантичної сутності об’єкта та зберегти здатність до високоточної класифікації після вилучення ознак, відповідальних за орієнтацію. Такий підхід сприяє побудові моделей, які залишаються ефективними навіть за різноманітних ракурсів вхідних даних, що підвищує їхню стійкість у практичних застосуваннях.
Запропонований метод базується на використанні згорткового варіаційного автокодера, який спочатку навчається на наборі зображень із різними кутами повороту. Після цього за допомогою лінійної регресії виявляються ті компоненти латентного простору, що найбільше корелюють із параметром повороту. Ці компоненти вилучаються, а решта ознак використовується для класифікації. Додатково відбувається відновлення зображень без вилучених компонент, що дає змогу візуально перевірити інваріантність до повороту та оцінити, наскільки ефективно зберігається розпізнавання форми об’єкта.
Експерименти на синтетичному наборі цифр демонструють, що усунення “поворотних” компонент латентного простору не призводить до критичного зниження загальної точності класифікації. Натомість видалені компоненти істотно впливають саме на орієнтацію, що підтверджує можливість чіткого розділення геометричних і семантичних ознак. Відновлені без цих компонент зображення залишаються впізнаваними, але виглядають вирівняними, тобто позбавленими вихідного повороту. Проведено кількісне оцінювання внеску вилучених компонент у втрату точності.
Наукова новизна дослідження полягає в тому, що вперше запропоновано простий та відтворюваний метод вилучення орієнтаційних ознак із латентного простору автокодера без потреби у модифікації архітектури моделі або застосування додаткових регуляризаторів. Практичне значення роботи полягає у зменшенні впливу довільної орієнтації об’єкта на точність розпізнавання, що дозволяє підвищити універсальність і надійність систем комп’ютерного зору в умовах неконтрольованого ракурсу. Отримані результати можуть бути використані для побудови класифікаторів, здатних ефективно працювати із зображеннями, у яких орієнтація об’єкта змінюється або не є фіксованою під час збирання даних.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Ганна БЕДРАТЮК

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.