ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ПРОВЕДЕННЯ СТАТИСТИЧНО-КЛАСТЕРНОГО АНАЛІЗУ ІНФОРМАЦІЇ У СКЛАДНИХ МЕРЕЖАХ

Автор(и)

DOI:

https://doi.org/10.31891/csit-2022-4-7

Ключові слова:

оптимальне число кластерів, центри кластерів, алгоритм k-core decomposition, власні значення, стохастична матриця, процес кластеризації, статистичні характеристики, марковський процес

Анотація

Велика кількість інформації в Інтернеті та й загалом сам інформаційний простір являють собою складну мережу з усіма характерними для таких структур статистичними характеристиками, особливостями та зв’язками. Вивчення статистичних особливостей і кластерної структури таких мереж, а також найбільших доменів і зон цікавить сьогодні багатьох дослідників і вчених.

Розроблена інформаційна технологія, за допомогою якої проводиться збір, обробка та збереження даних великих об’ємів з веб-простору. За допомогою інформаційної технології досліджуються статистичні характеристики різних сегментів веб-простору та досліджується їх кластерна структура.

За допомогою написаного програмного забезпечення (кроулера) проводиться збір інформації по заданому сегменту веб-простору. Для досліджуваної зони знаходяться статистичні характеристики, а саме: ступінь вузла, коефіцієнт кластерності, розподіли ймовірностей вузлів за вхідними та вихідними зв’язками. Будуються орієнтовані та неорієнтовані графи веб-сторінок досліджених зон. Об’єднуючи розраховані залежності для вхідних та вихідних підмереж, можна отримати статистичні характеристики неорієнтованих графів веб-сторінок зон веб-простору, які досліджуємо.

Для проведення кластерного аналізу знаходиться оптимальне число кластерів та центри кластерів 2 способами: відомим алгоритмом k-core decomposition та за допомогою нового методу, розробленого автором. Новий алгоритм базується на розподілі власних значень стохастичної матриці, що описує процес Маркова переходів у системі. За допомогою алгоритму Рower iteration clustering проводиться дослідження кластерної структури різних сегментів веб-простору.

Перевагою розробленої інформаційної технології є те, що з її допомогою можна працювати з великими масивами даних, зібраних в Інтернеті, вивчати їх структуру та статистичні характеристики, здійснювати процес кластеризації. Для реалізації процесу кластеризації та знаходження оптимальної кількості кластерів і центроїдів запропоновано новий алгоритм. Результати роботи алгоритму свідчать про високу точність визначення оптимальної кількості кластерів.

##submission.downloads##

Опубліковано

2022-12-29

Як цитувати

КИРИЧЕНКО, О. (2022). ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ПРОВЕДЕННЯ СТАТИСТИЧНО-КЛАСТЕРНОГО АНАЛІЗУ ІНФОРМАЦІЇ У СКЛАДНИХ МЕРЕЖАХ . Computer Systems and Information Technologies, (4), 47–51. https://doi.org/10.31891/csit-2022-4-7