ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ПРОВЕДЕННЯ СТАТИСТИЧНО-КЛАСТЕРНОГО АНАЛІЗУ ІНФОРМАЦІЇ У СКЛАДНИХ МЕРЕЖАХ
DOI:
https://doi.org/10.31891/csit-2022-4-7Ключові слова:
оптимальне число кластерів, центри кластерів, алгоритм k-core decomposition, власні значення, стохастична матриця, процес кластеризації, статистичні характеристики, марковський процесАнотація
Велика кількість інформації в Інтернеті та й загалом сам інформаційний простір являють собою складну мережу з усіма характерними для таких структур статистичними характеристиками, особливостями та зв’язками. Вивчення статистичних особливостей і кластерної структури таких мереж, а також найбільших доменів і зон цікавить сьогодні багатьох дослідників і вчених.
Розроблена інформаційна технологія, за допомогою якої проводиться збір, обробка та збереження даних великих об’ємів з веб-простору. За допомогою інформаційної технології досліджуються статистичні характеристики різних сегментів веб-простору та досліджується їх кластерна структура.
За допомогою написаного програмного забезпечення (кроулера) проводиться збір інформації по заданому сегменту веб-простору. Для досліджуваної зони знаходяться статистичні характеристики, а саме: ступінь вузла, коефіцієнт кластерності, розподіли ймовірностей вузлів за вхідними та вихідними зв’язками. Будуються орієнтовані та неорієнтовані графи веб-сторінок досліджених зон. Об’єднуючи розраховані залежності для вхідних та вихідних підмереж, можна отримати статистичні характеристики неорієнтованих графів веб-сторінок зон веб-простору, які досліджуємо.
Для проведення кластерного аналізу знаходиться оптимальне число кластерів та центри кластерів 2 способами: відомим алгоритмом k-core decomposition та за допомогою нового методу, розробленого автором. Новий алгоритм базується на розподілі власних значень стохастичної матриці, що описує процес Маркова переходів у системі. За допомогою алгоритму Рower iteration clustering проводиться дослідження кластерної структури різних сегментів веб-простору.
Перевагою розробленої інформаційної технології є те, що з її допомогою можна працювати з великими масивами даних, зібраних в Інтернеті, вивчати їх структуру та статистичні характеристики, здійснювати процес кластеризації. Для реалізації процесу кластеризації та знаходження оптимальної кількості кластерів і центроїдів запропоновано новий алгоритм. Результати роботи алгоритму свідчать про високу точність визначення оптимальної кількості кластерів.