Головна |
Об'єднання або метод деревовидної кластеризації використовується при формуванні кластерів відмінність або відстані між об'єктами. Ці відстані можуть визначатися в одновимірному або багатовимірному просторі.
Евклідова відстань. Це, мабуть, найбільш загальний тип відстані. Воно просто є геометричним відстанню в багатовимірному просторі і обчислюється таким чином:
.
Евклідова відстань (і його квадрат) обчислюється по вихідним, а не за стандартизованими даними. Це звичайний спосіб його обчислення, який має певні переваги (наприклад, відстань між двома об'єктами не змінюється при введенні в аналіз нового об'єкта, який може виявитися викидом). Проте, на відстані можуть сильно впливати відмінності між осями, за координатами яких обчислюються ці відстані.
Квадрат евклидова відстані. Іноді може виникнути бажання звести в квадрат стандартне евклідова відстань, щоб надати великі ваги більш віддаленим один від одного об'єктів. Це відстань обчислюється таким чином:
.
Відстань міських кварталів (Манхеттенський відстань). Це відстань є просто середнім різниць по координатах. Для цього заходу вплив окремих великих різниць (викидів) зменшується (так як вони не зводяться в квадрат). Манхеттенський відстань обчислюється за формулою:
.
відстань Чебишева. Це відстань може виявитися корисним, коли бажають визначити два об'єкти як "різні", якщо вони розрізняються за якоюсь однією координаті (будь-яким одним виміром). Відстань Чебишева обчислюється за формулою: .
Статечне відстань. Іноді бажають прогресивно збільшити або зменшити вагу, що відноситься до розмірності, для якої відповідні об'єкти сильно відрізняються. Це може бути досягнуто з використанням статечного відстані. Статечне відстань обчислюється за формулою:
.
де r і p - параметри, що визначаються користувачем. Кілька прикладів обчислень можуть показати, як "працює" ця міра. Параметр p відповідальний за поступове зважування різниць за окремими координатами, параметр r відповідальний за прогресивне зважування великих відстаней між об'єктами. Якщо обидва параметри r і p, рівні двом, то це відстань збігається з відстанню Евкліда.
відсоток незгоди. Цей захід використовується в тих випадках, коли дані є категоріальним. Це відстань обчислюється за формулою:
відстань (x, y) = (Кількість x yi) / Ni
ієрархічне дерево | Правила об'єднання або зв'язку
І їх застосування в аналізі і прогнозі. | Логістична регресія | тенденції розвитку | Метод найменших квадратів. | Аналіз циклічних змін | Метод звичайних середніх | Метод коригування середніх | Хід роботи | сезонних коливань | кластерний аналіз |