На головну

 Число градацій більше двох |  незалежні вибірки |  повторні вимірювання |  АНАЛІЗ ПОСЛІДОВНОСТІ: КРИТЕРІЙ СЕРІЙ |  Обробка на комп'ютері: аналіз послідовності |  кореляційний аналіз |  КОРЕЛЯЦІЯ МЕТРИЧНИХ ЗМІННИХ |  ПРИВАТНА КОРЕЛЯЦІЯ |  Порівняння кореляцій для незалежних вибірок |  Порівняння кореляцій для залежних вибірок |

АНАЛІЗ кореляційної матриці

  1.  I. Аналіз завдання
  2.  I. Аналіз словосполучення.
  3.  I. ВСТУП В АНАЛІЗ ЛІКАРСЬКИХ ФОРМ
  4.  I. Ситуаційний аналіз внутрішньої діяльності.
  5.  II. Аналіз чергування в групах
  6.  II. Аналіз ситуації з математичною освітою в ліцеї №12
  7.  II. МАТРИЦІ

Кореляційна матриця. Часто кореляційний аналіз включає в себе вивчення зв'язків не двох, а безлічі змінних, виміряних в кількісної шкалою на одній вибірці. В цьому випадку обчислюються кореляції для кожної пари з цього безлічі змінних. Обчислення зазвичай проводяться на комп'ютері, а результатом є кореляційна матриця.

Кореляційна матриця (СоггеШ'юп Ма1пх) - це результат обчислення кореляцій одного типу для кожної пари з безлічі Р змінних, виміряних в кількісної шкалою на одній вибірці.

ПРИКЛАД _________________________________________________________________________

Припустимо, вивчаються зв'язки між 5 змінними (в1, в2, ..., У5; Р = 5), вимірюваними на вибірці чисельністю N =: 30 людина. Нижче наведена таблиця вихідних даних і кореляційна матриця. Вихідні дані: Кореляційна матриця:

Кореляційна матриця є квадратної: число рядків і стовпців дорівнює числу змінних. Вона симетрична щодо головної діагоналі, так як кореляція хс у дорівнює кореляції у с х. На її головною діагоналі розташовуються одиниці, так як кореляція ознаки з самим собою дорівнює одиниці. Отже, аналізу підлягають в повному обсязі елементи кореляційної матриці, а ті, які знаходяться вище або нижче головної діагоналі.

Кількість коефіцієнтів кореляції, що підлягають аналізу при вивченні зв'язків ^ ознак визначається формулою: Р (Р-1) / 2. У наведеному вище прикладі кількість таких коефіцієнтів кореляції 5 (5 - 1) / 2 = 10.

Основне завдання аналізу кореляційної матриці - виявлення структури взаємозв'язків безлічі ознак. При цьому можливий візуальний аналіз кореляційних плеяд - графічного зображення структури статистично значущих зв'язків, якщо таких зв'язків не дуже багато (до 10-15). Інший спосіб - застосування багатовимірних методів: множинного регресійного, факторного або кластерного аналізу (див. Розділ «Багатовимірні методи ...»). Застосовуючи факторний або кластерний аналіз, можна виділити угруповання змінних, які тісніше пов'язані один з одним, ніж з іншими змінними. Досить ефективно і поєднання цих методів, наприклад, якщо ознак багато і вони не однорідні.

Порівняння кореляцій - додаткове завдання аналізу кореляційної матриці, що має два варіанти. Якщо необхідно порівняння кореляцій в одному з рядків кореляційної матриці (для однієї з змінних), застосовується метод порівняння для залежних вибірок (с. 148-149). При порівнянні однойменних кореляцій, обчислених для різних вибірок, застосовується метод порівняння для незалежних вибірок (с. 147-148).

Методи порівняння кореляцій в діагоналях кореляційної матриці (для оцінки стаціонарності випадкового процесу) і порівняння декількох кореляційних матриць, отриманих для різних вибірок (на предмет їх однорідності), є трудомісткими і виходять за рамки даної книги. Познайомитися з цими методами можна по книзі Г. В. Суходольського[14].

Проблема статистичної значущості кореляцій. Проблема полягає в тому, що процедура статистичної перевірки гіпотези передбачає одноразове випробування, проведене на одній вибірці. Якщо один і той же метод застосовується багаторазово, нехай навіть і по відношенню до різних змінних, то збільшується ймовірність отримати результат чисто випадково. У загальному випадку, якщо ми повторюємо один і той же метод перевірки гіпотези до раз в відношенні різних змінних або вибірок, то при встановленій величині а ми гарантовано матимемо підтвердження гіпотези в АХК числі випадків.

Припустимо, аналізується кореляційна матриця для 15 змінних, тобто обчислено 15 (15-1) / 2 = 105 коефіцієнтів кореляції. Для перевірки гіпотез встановлений рівень а = 0,05. Перевіряючи гіпотезу 105 раз, ми п'ять разів (!) Отримаємо її підтвердження незалежно від того, чи існує зв'язок насправді. Знаючи це і отримавши, скажімо, 15 «статистично достовірних» коефіцієнтів кореляції, чи зможемо ми сказати, які з них отримані випадково, а які - відображають реальний зв'язок?

Строго кажучи, для прийняття статистичного рішення необхідно зменшити рівень а в стільки разів, скільки гіпотез перевіряється. Але навряд чи це доцільно, так як непередбачуваним чином збільшується ймовірність проігнорувати реально існуючий зв'язок (припуститися помилки II роду).

Одна тільки кореляційна матриця не є достатньою підставою для статистичних висновків щодо входять до неї окремих коефіцієнтів кореляцій!

Можна вказати лише один справді переконливий спосіб вирішення цієї проблеми: розділити вибірку випадковим чином на дві частини і приймати до уваги тільки ті кореляції, які статистично значущі в обох частинах вибірки. Альтернативою може бути використання багатовимірних методів (факторного, кластерного або множинного регресійного аналізу) - для виділення і подальшої інтерпретації груп статистично значимо пов'язаних змінних.

Проблема пропущених значень. Якщо в даних є пропущені значення, то можливі два варіанти розрахунку кореляційної матриці: а) порядкове видалення значень (Ехс1іёе сазез НзМве); б) попарне видалення значень (Ехс1і <1е савев ра1т8е). При порядковому видаленні спостережень з пропусками видаляється вся рядок для об'єкта (випробуваного), який має хоча б одне пропущене значення по одній із змінних. Цей спосіб призводить до «правильної» кореляційної матриці в тому сенсі, що всі коефіцієнти обчислені по одному і тому ж безлічі об'єктів. Однак якщо пропущені значення розподілені випадковим чином в змінних, то даний метод може привести до того, що в розглянутому безлічі даних не залишиться жодного об'єкта (в кожному рядку зустрінеться, принаймні, одне пропущене значення). Щоб уникнути подібної ситуації, використовують інший спосіб, званий попарним видаленням. У цьому способі враховуються тільки пропуски в кожної обраної парі стовпців-змінних і ігноруються пропуски в інших змінних. Кореляція для пари змінних обчислюється по тих об'єктах, де немає пропусків. У багатьох ситуаціях, особливо коли число пропусків щодо мало, скажімо 10%, і пропуски розподілені досить хаотично, цей метод не призводить до серйозних помилок. Однак іноді це не так. Наприклад, в систематичному зміщенні (зрушенні) оцінки може «ховатися» систематичне розташування пропусків, що є причиною відмінності коефіцієнтів кореляції, побудованих за різними підмножини (наприклад - для різних підгруп об'єктів). Інша проблема, пов'язана з кореляційної матрицею, обчисленої при попарном видаленні пропусків, виникає при використанні цієї матриці в інших видах аналізу (наприклад, в множині регрессионном або факторному аналізі). У них передбачається, що використовується «правильна» кореляційна матриця з певним рівнем заможності і «відповідності» різних коефіцієнтів. Використання матриці з «поганими» (зміщеними) оцінками при
 водить до того, що програма або не в змозі аналізувати таку матрицю, або результати будуть помилковими. Тому, якщо застосовується попарний метод виключення пропущених даних, необхідно перевірити, є чи ні систематичні закономірності в розподілі пропусків.

Якщо попарне виняток пропущених даних не призводить до будь -або систематичного зсуву середніх значень і дисперсій (стандартних відхилень), то ці статистики будуть схожі на аналогічні показники, обчислені при порядковому способі видалення пропусків. Якщо спостерігається значна різниця, то є підстави припускати наявність зсуву в оцінках. Наприклад, якщо середнє (або стандартне відхилення) значень змінної А, яке використовувалося при обчисленні її кореляції зі змінною В, набагато менше середнього (або стандартного відхилення) тих же значень змінної А, які використовувалися при обчисленні її кореляції зі змінною С, то є всі підстави очікувати, що ці дві кореляції {А-В і / 4-0 засновані на різних подмножествах даних. В кореляції буде зрушення, викликаний невипадковим розташуванням пропусків в значеннях змінних.

Аналіз кореляційних плеяд. Після вирішення проблеми статистичної значущості елементів кореляційної матриці статистично значущі кореляції можна представити графічно у вигляді кореляційної плеяди або сузір'їв. Кореляційний плеяда - це фігура, що складається з вершин і з'єднують їх ліній. Вершини відповідають ознакам і позначаються зазвичай цифрами - номерами змінних. Лінії відповідають статистично достовірним зв'язків і графічно висловлюють знак, а іноді - і р-рівень значущості зв'язку.

Кореляційний плеяда може відображати все статистично значущі зв'язку кореляційної матриці (іноді називається кореляційним графом) або тільки їх змістовно виділену частину (наприклад, відповідну одному фактору за результатами факторного аналізу).

Кореляційний граф і його родинні зв'язки, достовірність яких була встановлена ??в судовому порядку

ПРИКЛАД ПОБУДОВИ кореляційної ПЛЕЯДИ

Кореляційна матриця:

   VI м2  УЗ  у4  У5
 VI  г 0,5-2  -0,11  -0.29  -0,38
 У2  0,52  0,28  0,32  -0,34
 УЗ  -0,11  0,28  0,48  0,42
 у4  -0,29  0,32  0,48  0,38
У5  -0,38  -0,34  0,42  0,38

 2 12 2 3

 Кореляційний плеяда:

Побудова кореляційної плеяди починають з виділення в кореляційної матриці статистично значущих кореляцій (іноді - різним кольором залежно від р-рівня значущості). Потім для рядків (стовпців) матриці, що містять статистично значущі кореляції, підраховується їх кількість. Побудова плеяди починають зі змінною, що має найбільшу кількість значущих зв'язків, поступово додаючи в малюнок інші змінні - у напрямку зниження числа зв'язків і пов'язуючи їх лініями, відповідними зв'язків між ними.



 КОРЕЛЯЦІЯ рангових ЗМІННИХ |  ПАРАМЕТРИЧНІ МЕТОДИ ПОРІВНЯННЯ двох вибірок
© um.co.ua - учбові матеріали та реферати