Підхід до прискорення навчання згорткової нейронної мережі за рахунок налаштуування гіперпараметрів навчання
DOI:
https://doi.org/10.31891/CSIT-2020-2-5Ключові слова:
Швидкість навчання, розмір підвиборки набору даних, імпульс навчання, гіперпараметри, згорткова нейронна мережа, точність валідаціїАнотація
За останні десятиліття впровадження методів глибокого навчання, зокрема згорткових нейронних мереж (ЗНМ) призвело до вражаючого успіху у задачах обробки статичних зображень та відео. Проте, навчання ЗНМ здебільшого ґрунтується на застосуванні наборів квазіоптимальних гіперпараметрів архітектури та навчання. Подібний підхід потребує тривалого часу навчання мережі та не гарантує задовільного результату. Тим не менш, налаштування гіперпараметрів має вирішальне значення для ефективності ЗНМ, оскільки різні гіперпараметри призводять до моделей із суттєво різними характеристиками. Невдало підібрані гіперпараметри зазвичай призводять до низької продуктивності моделі. На сьогодні, питання оптимального підбору гіперпараметрів для ЗНМ все ще невирішене. Подана робота пропонує кілька практичних підходів до налаштування гіперпараметрів, що дає змогу скоротити час навчання та підвищити точність роботи моделі. У статті розглядається функція втрат валідації тренувань під час недо- та перенавчання та наводяться вказівки щодо досягнення точки оптимізації. В роботі також розглядається питання регуляції кроку та імпульсу навчання для прискорення навчання мережі. Усі експерименти базуються на відомих наборах даних CIFAR-10 та CIFAR-100.