Головна

Методи кластерного аналізу

  1. III. Аналіз результатів психологічного аналізу 1 і 2 періодів діяльності привів до наступного розуміння узагальненої структури стану психологічної готовності.
  2. III. ФІЗИЧНІ МЕТОДИ ДОСЛІДЖЕННЯ
  3. III. Етап кількісного та якісного аналізу даних
  4. III. Етапи, регламент i методика правядзення дзелавой гульнi
  5. Part II. Methods and Means / методи і засоби
  6. V. Схема аналізу поліструктурної системи
  7. VII. ЕКСПЕРИМЕНТАЛЬНО-психологічні методи дослідження МИСЛЕННЯ І МОВИ

У практиці зазвичай реалізуються агломеративні методи кластеризації.

Зазвичай перед початком класифікації дані стандартизуються (віднімається середнє і здійснюється поділ на корінь квадратний з дисперсії). Отримані в результаті стандартизації змінні мають нульове середнє і одиничну дисперсію.

Можна вибрати такі правила ієрархічного об'єднання кластерів:

- Метод одиночній зв'язку,

- Метод повного зв'язку,

- Незважених метод «середньої зв'язку»,

- Зважений метод «середньої зв'язку»,

- Зважений центроїдного метод,

- Метод Уорда.

Дані алгоритми розрізняються правилами об'єднання об'єктів в кластери.

У методі одиночній зв'язку на першому кроці об'єднуються два об'єкти, що мають між собою максимальну міру подібності. На наступному кроці до них приєднується об'єкт з максимальною мірою подібності з одним з об'єктів кластера. Таким чином, процес триває далі. Отже, для включення об'єкта в кластер потрібна максимальна схожість лише з одним членом кластера. Звідси і назва методу одиночній зв'язку, потрібна тільки одна зв'язок, щоб приєднати об'єкт до кластеру: зв'язок нового елемента з кластером визначається тільки по одному з елементів кластера. Недоліком цього методу є утворення занадто великих «довгастих» кластерів.

Метод повних зв'язків дозволяє усунути зазначений недолік. Тут міра подібності між об'єктом - кандидатом на включення в кластер і всіма членами кластеру не може бути менше деякого порогового значення. У методі середньої зв'язку міра подібності між кандидатом та членами кластеру усредняется, наприклад, береться просто середнє арифметичне заходів подібності.

Ідея ще одного агломеративного методу - методу Уорда полягає в тому, щоб проводити об'єднання, що дає мінімальне збільшення внутрішньогрупової суми квадратів відхилень. Помічено, що метод Уорда призводить до утворення кластерів приблизно рівних розмірів і мають форму гіперсферу.

Розглянемо ще ітеративний метод угруповання k-середній. Даний метод працює безпосередньо з об'єктами, а не з матрицею подібності.

У методі k-средніхоб'ект відноситься до того класу, відстань до якого мінімально. Відстань розуміється як евклідова відстань, тобто об'єкти розглядаються як точки евклидова простору.

Як визначити евклідова відстань, ми вже знаємо. Але як визначити відстань від об'єкта до сукупності об'єктів? Виявляється, це можна зробити в такий спосіб: кожен клас об'єктів має центр ваги (розгляньте, як і раніше, найпростіший випадок - уявіть, що об'єкт має тільки два параметри, тоді його можна зобразити точкою на площині, а група об'єктів - це просто група точок) .

Відстань між об'єктом і класом є відстань між об'єктом і центром класу. Але як обчислити центр класу? Наприклад, взяти середні по кожному параметру. Тоді відстань між об'єктом і групою об'єктів цілком визначено і алгоритм може працювати.

Уявіть, що число об'єктів в групі дорівнює 2. З'єднайте ці точки відрізком прямої і знайдіть його середину. Це і буде центр ваги групи, що складається з двох точок. Відстань від цього центру до вихідної точки буде шуканим відстанню.

принципово метод k-Середній «працює» в такий спосіб:

1 спочатку задається деякий розбиття даних на кластери (число кластерів визначається заздалегідь); обчислюються центри тяжкості кластерів;

2 відбувається переміщення точок: кожна точка поміщається в найближчий до неї кластер;

3 обчислюються центри тяжкості нових кластерів;

4 кроки 2, 3 повторюються, поки не буде знайдена стабільна конфігурація (тобто кластери перестануть змінюватися) або число ітерацій не перевищить заданий користувачем. Підсумкова конфігурація і є шуканої.




Однофакторний дисперсійний комплекс | Багатофакторний дисперсійний комплекс | перетворення | Показники сили впливів | Помилка репрезентативності основного показника сили впливу | Граничні значення показників сили впливу | Достовірність впливів | дискримінантний аналіз | Постановка завдання, методи вирішення, обмеження | Алгоритм дискримінантного аналізу |

© 2016-2022  um.co.ua - учбові матеріали та реферати