На головну

багатовимірні угруповання

  1. Агропроїзводственниє угруповання грунтів
  2. Обчислення параметрів парної лінійної регресії на основі аналітичної угруповання
  3. Угруповання галузей і комплексів
  4. Двовимірні і багатовимірні probit-моделі.
  5. Значення і сутність угруповання
  6. Імітаційна модель руху орбітального угрупування навігаційних супутників (НС)
  7. Лексико-семантичні УГРУПОВАННЯ СЛІВ

Ми переконалися, як важко вибрати якийсь один ознака в якості основи угруповання. Ще важче проводити угруповання за кількома ознаками. Комбінація двох ознак дозволяє зберегти видимість таблиці, але комбінація трьох або чотирьох ознак дає абсолютно незадовільний результат: адже навіть при виділенні трьох категорій по кожному з группіровочнихознак ми отримаємо 9 або 27 підгруп. Рівномірність розподілу одиниць за групами в принципі неможлива. От і виходять групи, в які входять 1-2 спостереження. Зберегти складність опису груп і разом з тим подолати недоліки комбінаційної угруповання дозволяють методи багатовимірних угруповань. Часто їх називають методами багатовимірної класифікації.

Ці методи набули поширення завдяки використанню ПЕОМ та пакетів прикладних програм. Мета цих методів - класифікація даних, інакше кажучи, группіров-


--- Кінець сторінки ---

----------Стор. 192

ка на основі безлічі ознак. Такі завдання широко поширені в науках про природу і суспільство, в практичній діяльності з управління масовими процесами. Наприклад, виділення типів підприємств по фінансовому становищу, по економічній ефективності діяльності проводиться на основі безлічі ознак; то ж при виділенні груп клієнтів у банку.

Найпростішим варіантом багатовимірної класифікації є угруповання на основі багатовимірних середніх.

 Багатовимірної середньої називається середня величина декількох ознак для однієї одиниці сукупності. Оскільки не можна розрахувати середню величину абсолютних значень різних ознак, виражених у різних одиницях виміру, то багатовимірна середня обчислюється з відносних величин, як правило, - з відносин значень ознак для одиниці сукупності до середніх значень цих ознак:


Таблиця 6.9 Характеристики підприємств Всеволожського району Ленінградської області в 1999 р

Ці ознаки можна вважати однорідними, так як велика їх величина позитивно характеризує економіку підприємства. Переважно узагальнювати в багатовимірної середньої ознаки, або все «позитивні», або все «негативні» (чим більше, тим гірше).

Багатовимірні середні, наведені в останній графі табл. 6.9, узагальнюють чотири ознаки. При цьому значимість ознак для оцінки підприємства покладається однаковою, що, звичайно, спірно. Можна ускладнити методику, приписавши ознаками на основі експертної оцінки різні ваги, і обчислити зважені багатовимірні середні.

Судячи з отриманими значеннями рь підприємства діляться на групи з багатовимірними середніми нижче 100% (чотири підприємства), трохи вище 100% (два підприємства) і різко перевищують 100% (два підприємства).

При великому обсязі сукупності для виділення груп на основі багатовимірної середньої необхідно встановити інтервали значень багатовимірної середньої:


Потім слід провести угруповання одиниць: визначити їх кількість у всіх групах і постаратися вказати, в чому полягають якісні відмінності між групами. Більш обґрунтованим методом багатовимірної класифікації є кластерний аналіз. Сама назва методу етимологічно бере початок від слів «клас»,

«Класифікація». Англійське слово «the cluster» має значення: група, пучок, кущ, тобто об'єднання якихось однорідних явищ. В даному контексті воно близьке до математичного поняттю «безліч», причому, як і безліч, кластер може містити тільки одне явище, але не може на відміну від безлічі бути порожнім.

Кожна одиниця сукупності в кластерному аналізі розглядається як точка в заданому просторі ознак. Значення кожного з ознак у даній одиниці служить її координатою в цьому просторі за аналогією з координатами точки в нашому реальному тривимірному просторі. Таким чином, простору ознак - це область варіювання всіх ознак сукупності досліджуваних явищ. Якщо ми прирівняємо цей простір звичайного простору, що має евклидову метрику, то тим самим отримаємо можливість вимірювати «відстані» між точками простору ознак. Ці відстані називають Евклідовому. Їх обчислюють за тими ж правилами, що і в звичайній геометрії Евкліда. На площині, тобто в двомірному просторі, відстань між точками А я В дорівнює кореню квадратному із суми квадратів різниць координат цих точок по осі абсцис і по осі ординат - на основі теореми Піфагора (рис. 6.1):

Цілком очевидно, що не можна підсумувати квадрати відхилень однієї точки від іншої в абсолютних значеннях 194









Отже, на другому кроці до першого кластеру приєднується підприємство «Приміське». Обчислюємо середні величини, нормовані різниці за кожною ознакою і евклідові відстані від кластера, що включає три підприємства ( «Горби», «Щеглово», «Приміське»), до кожного з решти підприємств. Результати представлені в табл. 6.17.

Замінивши евклідові відстані підприємств, що увійшли до кластер, даними останньої графи табл. 6.17, отримаємо нову матрицю евклідових відстаней (табл. 6.18).

Мінімальним є евклідова відстань від кластера до підприємства «Авлога». На третьому кроці утворюємо кластер

«Горби + Щеглово + Приміське + Авлога». Отримані середні величини для кластера, нормовані різниці і евклідові відстані представлені в табл. 6.19 і 6.20.

Мінімальна евклідова відстань між підприємствами

«Струмки» і «Виборгськоє» менше двох, отже, ці підприємства об'єднуються в кластер 2 (табл. 6.21). Кластер «Б

+ Щ + П + А »будемо називати кластером 1.

Після четвертого кроку отримуємо нову матрицю евклідових відстаней (табл. 6.22).

Згідно з табл. 6.22 всі відстані більше двох. Ми залишаємо чотири типи підприємств: підприємства, що увійшли в кластер 1, кластер 2, кластер 3 ( «Всеволожську») і кластер 4 ( «Приневской»).

Порівнюючи результат кластерного аналізу з багатовимірними середніми (див. Табл. 6.9), бачимо, що склад кластера 1 точно відповідає тим господарствам, чиї багатовимірні середні нижче 100%. Також виділення в самостійний кластер підприємства

«Приневской» відповідає його вищому значенню багатовимірної середньої. А ось об'єднання в кластер 2 підприємств «Струмки» і «Виборгськоє» не відповідає багатовимірним середнім, за якими до підприємства «Струмки» було ближче підприємство «Всеволожську». В результаті різкого відмінності за ознакою X4 підприємство «Всеволожську» виділилося в окремий кластер 3.

Узагальнюючи розглянуту процедуру кластерного аналізу, уявімо дії у вигляді певної послідовності.

1. Обчислення середніх величин для кожного з класифікаційних ознак х: в цілому по сукупності. 202



Опоеделеніе ваг - досить складне завдання, що виходить за межі компетенції статистики. Про те які ознаки важливіше при класифікації тих чи інших об'єктів, можуть судити не статистики, а фахівці у відповідній галузі. Тому одним із способів визначення ваги ознак при кластерному аналізі є оцінки експертів. Опитавши фахівців-експертів (не менше 6-10), статистик зможе визначити за їхніми оцінками місце (роль) кожного группіровоч-ного ознаки. Потім знайти середній «вага» ознаки. Можна просити експертів ранжувати ознаки по порядку значущості і визначати «середнє місце», але оцінка при цьому буде дуже груба: ознака, поставлений на перше місце, буде вдвічі важливіше другого і в двадцять або тридцять разів важливіше останнього. Для того щоб відмінності ваг були не такими значними, можна просити експертів розподілити загальну суму оцінок (100 або 1000%) між группіровочнихознак відповідно до їх значеннями. Тоді кожному з ознак буде приписана деяка частка цієї загальної суми, можна двом-трьом ознаками приписати однакові ваги. Але цей спосіб зважування вимагає від експертів більшої точності і напруги, ніж просте ранжування ознак.

Суб'єктивність експертних оцінок в якійсь мірі можна компенсувати статистичною обробкою. Наприклад, за кожною ознакою перед визначенням середньої оцінки його ваги можна відкинути максимальну і мінімальну оцінки, якщо вони істотно відрізняються від оцінок інших експертів. Можна взагалі виключити того експерта, чиї оцінки в середньому відрізняються від середніх оцінок ознак більш ніж, наприклад, на 2а. Однак ці статистичні корективи небездоганні і допустимі при значному числі експертів для того, щоб їх середні оцінки були надійні.

Існує й інша можливість оцінки ролі группіро- вальних ознак, їх значимості для класифікації: на основі стандартизованих коефіцієнтів регресії або коефіцієнтів роздільної детермінації (гл. 9).

Розглянутий алгоритм ієрархічної класифікації можна модифікувати, використовуючи метод «.бліжайшего» або

«Далекого сусіда» (табл. 6.23). У цьому випадку в матрицю евклідових відстаней вводяться відстані, отримані не на основі середніх величин по кластеру; в якості представника 204









РЕЗЮМЕ

Вимога однорідності даних висувається на всіх етапах статистичного аналізу. Для отримання однорідних даних проводиться угруповання. При цьому відмінності між одиницями, віднесеними до однієї групи, повинні бути менше, ніж між одиницями, віднесеними до різних груп.

Проведення угрупування включає вибір группировочного ознаки (або ознак) і визначення меж інтервалів. Найчастіше угруповання проводяться з рівними інтервалами, але при нерівномірному зміні группировочного ознаки і його значної варіації застосовуються угруповання з равнонаполненная інтервалами.

Залежно від мети проведення розрізняють такі види угруповань: типологічні, структурні, аналітичні.

Типологічна угруповання проводиться з метою виділення соціально-економічних типів.

Структурна угруповання відповідає вариационному ряду. Аналітичне угруповання будується для вивчення залежності однієї ознаки від іншого. На її основі вимірюються сила і тіснота зв'язку, тобто обчислюється емпіричне кореляційне відношення. Для погашення впливу інших факторів в аналітичній угрупованню доцільно розраховувати стандартизовані групові середні. Висновки про характер і інтенсивності зв'язку між ознаками багато в чому залежать від обраного числа груп.

При необхідності угруповання за багатьма ознаками для кожної одиниці розраховують багатовимірну середню, а потім по її значенням групують дані.

Багатовимірні угруповання часто називають багатовимірними класифікаціями. Вони бувають ієрархічні, неієрархічні, засновані на заходи відмінності або подібності. В якості запобіжного відмінності найчастіше використовується евклідова відстань. Серед ієрархічних класифікацій виділяються метод середніх, метод «найближчого сусіда», метод «далекого сусіда».


Виходячи зі структури типу (ядро + шар) розвиваються імовірнісні класифікації, так звані класифікації в розмитих (нечітких) множини.

РЕКОМЕНДОВАНА ЛІТЕРАТУРА

1. Айвазян С. А., Мхитарян В. С. Теорія ймовірностей та прикладна статистика. Т. 1: Підручник для вузів. - 2-е вид. - М .: ЮНИТИ, 2001..

2. Афіфі А., ейзен С. Статистичний аналіз. Підхід з використанням ЕОМ: Пер. з англ. - М .: Світ, 1982.

3. Єлісєєва І. І., Рукавишников В. О. Угрупування, кореляція, розпізнавання образів. - М .: Статистика, 1977.

4. Енюков І. С, Методи - алгоритми - програми багатовимірного статистичного аналізу. - М .: Фінанси і статистика, 1986.

5. Козлов А, Ю., Шишлов В. Ф. Пакет аналізу MS Excel в економіко-статистичних розрахунках / Под ред. В. С. Мхітаряна.

- М .: ЮНИТИ, 2003.

6. Кулаічев А. П. Методи і засоби аналізу даних в середовищі Windows. Stadia 6.0. - М .: НПО «Інформатика і комп'ютери», 1996..

7. Мандел' І. Д. Кластерний аналіз. - М .: Фінанси і статистика, 1988.

8. Миркин Б. Г, Угруповання в соціально-економічних дослідженнях. - М .: Фінанси і статистика, 1985.


 



Попередня   27   28   29   30   31   32   33   34   35   36   37   38   39   40   41   42   Наступна

Середня величина як вираз закономірності | Варіація масових явищ | Побудова варіаційного ряду. Види рядів. ранжування даних | Структурні характеристики варіаційного ряду | Мода розподілу | Показники розміру і інтенсивності варіації | поняття дисперсії | Характеристика ексцесу розподілу | Гранично можливі значення показників варіації і їх застосування | Значення і сутність угруповання |

© um.co.ua - учбові матеріали та реферати