АЛГОРИТМИ ОНОВЛЕННЯ ДАНИХ В СИСТЕМІ МАШИННОГО НАВЧАННЯ
DOI:
https://doi.org/10.31891/csit-2023-1-1Ключові слова:
дрифт даних, пайплан, аномалії, операціоналізація, препроцесинг, машинне навчанняАнотація
У цій роботі було виконано аналіз методів для операціоналізації пошуку аномалій, виявлення дрифту даних та самого DataQC пайплайну як такого. Проаналізовані підходи до аналізу операціоналізації пайплайну та до операціоналізації виявлення дрифту даних. Виявлення аномалій допомагає нам оцінити чистоту і якість наших даних. Важливо, щоб у моделі не було аномальних викидів, оскільки вони заплутують модель. Також важливо мати послідовні дані без змін у розподілі ознак. Було запропоновано рішення з вибраними технологіями для операціоналізації DataQC пайплайну, визначено наступні кроки для подальшого дослідження. Запропоновано для побудови заданого DataQC пайплайну використати та обґрунтовати власне рішення для пошуку аномалій та виявлення дрифту даних через специфіку задачі, проблеми та відстуності готових рішень які б задовольняли наші вимоги. В роботі розглядаються етапи операціоналізація вищезгаданого пайплайну, який виконує етапи: фільтрування, пошуку аномалій, звітування, валідації, та порівняння нових даних з історичними, для існуючої у системі моделі машинного навчання. Описується складність задачі операціоналізації у реальному світі, яка полягає у постійному оновленні даних, необхідності їх опрацювання та подальшому застосуванні у системі машинного навчання. Також доводиться користь від пайплайну, який б автоматично опрацьовував нові дані. В роботі досліджується проблематика, яку слід розглядати як Time-Series проблему, то при формуванні інтерактивних звітів, перевірці даних на валідність, наявність та пошук викидів, аномалій. Це рішення дозволить нам візуалізувати всі кроки, які виконує конвеєр валідації даних, що дасть змогу іншим розробникам переглянути результат його роботи, не знаючи нюансів його реалізації та не витрачаючи зайвого часу. Також пропонована архітектура MLOps дозволяє відстежувати зміни трендів даних та гарантувати, що модель збереже свою прогностичну ефективність з часом.