На головну

кореляційний аналіз

  1.  I. Аналіз виховних можливостей середовища
  2.  I. Значення і завдання аналізу заготівельної діяльності. Аналіз закупівель сільськогосподарської продукції. Аналіз факторів, що впливають на заготівельний оборот.
  3.  I. ЗНАЧЕННЯ І ЗАВДАННЯ АНАЛІЗУ ВИРОБНИЧОЇ ДІЯЛЬНОСТІ. АНАЛІЗ ВИПУСКУ промислової продукції.
  4.  I. ЗАСТОСУВАННЯ проективної-демонстраційною технікою В глибинний аналіз З
  5.  II. Аналіз якості закупівель.
  6.  II. АНАЛІЗ ВИРОБНИЧОЇ ПОТУЖНОСТІ ПІДПРИЄМСТВА.
  7.  II. АНАЛІЗ ЕФЕКТИВНОСТІ ВИКОРИСТАННЯ ОСНОВНИХ ЗАСОБІВ.

Одним з основних методів статистичного аналізу взаємозалежності показників є кореляційний аналіз. При проведенні кореляційного аналізу припускають, що дані спостережень можна вважати випадковими і вибраними з генеральної сукупності, розподіленої за нормальним законом. За допомогою кореляційного аналізу оцінюють не тільки тісноту зв'язку між показниками, а й вирішуються завдання відбору факторів, що роблять найбільш істотний вплив на залежний ознака, виявлення раніше невідомих причинних зв'язків. Кореляційний аналіз не виявляє причину зв'язків між показниками, але встановлює кількісну міру цих зв'язків і підтверджує достовірність суджень про наявність зв'язку.

При проведенні кореляційного аналізу вся сукупність даних розглядається як безліч змінних (факторів), кожна з яких містить n спостережень.

Основними засобами аналізу є парні коефіцієнти кореляції, приватні коефіцієнти кореляції і множинні коефіцієнти кореляції. Коефіцієнти не мають розмірності, отже, можна порівняти для різних статистичних показників.

Парний коефіцієнт кореляції характеризує тісноту лінійної залежності між двома змінними на тлі дії всіх інших показників, що входять в модель.

При вивченні взаємозв'язку між двома змінними їх зазвичай позначають X и Y. Для двох змінних и  коефіцієнт парної кореляції визначається за формулою:

,

де  - Оцінки дисперсій величин X и Y. Ці оцінки характеризують ступінь розкиду значень  навколо свого середнього значення  відповідно, або варіабельність (мінливість) цих змінних на множині спостережень.

Оцінки дисперсій визначаються за формулою:

, .

Величина парного коефіцієнта кореляції лежить в межах від -1 до +1. Якщо кореляція між випадковими величинами позитивна, то при зростанні однієї випадкової величини інша величина має тенденцію в середньому зростати. Якщо кореляція між випадковими величинами негативна, то при зростанні однієї випадкової величини інша величина має тенденцію в середньому спадати.

Чим ближче коефіцієнт кореляції до ± 1, чим сильніше залежність між змінними. Близькість абсолютної величини коефіцієнта кореляції до нуля не означає, що змінні статистично незалежні, а лише вказує на відсутність лінійного зв'язку між ними, що не заперечує можливості існування іншої форми залежності між змінними.

У практиці статистичного аналізу зустрічаються випадки помилкової (або безглуздою) кореляції, коли високе значення коефіцієнта кореляції виявляє існування досить сильній залежності ознак, в дійсності не мають причинного зв'язку між собою. Класичний приклад помилкової кореляції наведено в 20 столітті відомим російським статистиком А. А. Чупрова: якщо в якості незалежної змінної взяти число пожежних команд в місті, а в якості залежної змінної суму збитків від пожеж за рік, то між ними є кореляційна залежність, т. Е. чим більше пожежних машин, тим більше сума збитків. Насправді тут немає причинно-наслідкового зв'язку, а лише наслідки загальної причини - величини міста.

Зазвичай помилкові кореляції отримують при вимірюванні залежності часових рядів двох показників, які пов'язані причинного залежністю. Прикладами помилкових кореляцій може служити збіг тенденції зростання споживчих цін і зростання споживчих доходів в постійних цінах і т. П У цьому випадку тенденції процесів збігаються за відсутності між показниками логічно обґрунтованою взаємозв'язку. Одним із шляхів виявлення помилкової кореляції є змістовний аналіз проблеми. Надалі будемо вважати, що між досліджуваними змінними існує причинний зв'язок і, отже, застосування кореляційного аналізу має логічне підгрунтя.

Оскільки оцінка тісноти зв'язку за допомогою коефіцієнта кореляції проводиться, як правило, на основі обмеженої інформації про досліджуваному явищі, то виникає питання: наскільки правомірно наше висновок за вибірковими даними про наявність кореляційної зв'язку в тій генеральної сукупності, з якої була залучена вибірка?

У зв'язку з цим виникає необхідність оцінки значущості лінійного коефіцієнта кореляції, що дозволяє поширити висновки за результатами вибірки на генеральну сукупність. Залежно від обсягу вибіркової сукупності пропонуються різні методи оцінки суттєвості лінійного коефіцієнта кореляції.

При малих вибірках оцінка значущості коефіцієнта кореляції виконується з використанням tкритерію Стьюдента. Перевіряється гіпотеза рівності нулю коефіцієнта кореляції Н0: ? = 0. При цьому фактичне (що спостерігається) значення tкритерію Стьюдента визначається за формулою:

.

Знайдене по цій формулі  порівнюється з критичним значенням tкритерію, яке вибирається з таблиці значень tкритерію Стьюдента з урахуванням заданого рівня значущості ? і числа ступенів свободи (N-2). якщо  , То отримане значення коефіцієнта кореляції визнається значущим, т. Е нульова гіпотеза, яка стверджує рівність нулю коефіцієнта кореляції, відкидається з ймовірністю помилки ?. Таким чином робиться висновок, що між досліджуваними змінними є тісний статистичний взаємозв'язок.

Якщо сукупність даних складається із змінної и m незалежних змінних (факторів) Х, Кожна з яких містить n спостережень, то вихідні дані для аналізу можна записати в матричному вигляді:

.

На підставі даних, що містяться в цій матриці, обчислюється матриця коефіцієнтів парної кореляції R:

,

Матриця є симетричною відносно головної діагоналі. Аналіз матриці парної кореляції використовується при побудові моделей множинної регресії.

Однак однією кореляційної матрицею повністю описати залежності між величинами можна. У зв'язку з цим в багатовимірному корреляционном аналізі розглядаються ще два завдання:

1. Визначення тісноти зв'язку між двома величинами при фіксуванні або виключення впливу інших величин;

2. Визначення тісноти зв'язку однієї випадкової величини з сукупністю інших величин, включених в аналіз.

Ці завдання вирішуються відповідно за допомогою коефіцієнтів часткової кореляції і множинної кореляції.

Якщо розглядаються випадкові величини корелюють один з одним, то на величині коефіцієнта парної кореляції частково позначається вплив інших величин. У зв'язку з цим виникає необхідність дослідження приватної кореляції між величинами при виключенні впливу інших випадкових величин.

Приватний коефіцієнт кореляції характеризує тісноту лінійної залежності між двома змінними при виключенні впливу всіх інших показників, що входять в модель.

Вибірковий приватний коефіцієнт кореляції обчислюється за формулою:

,

де  - Алгебраїчні доповнення до відповідних елементів матриці R.  , де  - Мінор, визначник матриці, що отримується з матриці R, Шляхом викреслювання jго рядка і k-го стовпчика. Приватний коефіцієнт кореляції, так само як і парний коефіцієнт кореляції, змінюється в межах від -1 до +1. Значимість приватного коефіцієнта кореляції, так само як і парного коефіцієнта, перевіряється по t-критерієм Стьюдента:

,

де m - Число фіксованих факторів.

Вирішення другого завдання (визначення тісноти зв'язку однієї випадкової величини з сукупністю інших величин, включених в аналіз) здійснюється за допомогою коефіцієнта множинної кореляції.

Множинний коефіцієнт кореляції характеризує тісноту лінійного зв'язку між однією змінною (залежної) і іншими, що входять в модель. Чим вище значення коефіцієнта множинної кореляції, тим сильніше зв'язок залежною змінною з пояснюють змінними.

Вибірковий коефіцієнт множинної кореляції визначається за формулою:

,

де | R | - Визначник кореляційної матриці R,  - Алгебраїчне доповнення елемента  тієї ж матриці R.

коефіцієнтом детермінації R2 називається квадрат множинного коефіцієнта кореляції. Він характеризує частку дисперсії результативної змінної, зумовленої впливом всіх інших змінних, що входять в модель.

Величина множинного коефіцієнт кореляції і коефіцієнта детермінації лежить в межах від 0 до 1.

Перевірка значущості коефіцієнта множинної кореляції (коефіцієнта детермінації) здійснюється по F-критерієм Фішера. Перевіряється гіпотеза рівності нулю множинного коефіцієнта кореляції Н0:  . При цьому фактичне (що спостерігається) значення F- Критерію Фішера визначається за формулою:

,

де n - Число спостережень;

p - Кількість параметрів моделі.

Знайдене по цій формулі  порівнюється з табличним значенням F-критерію, яке вибирається з таблиці значень F- Критерію Фішера з урахуванням заданого рівня значущості ? і ступенями свободи  . якщо  , То коефіцієнт R2 значимо відрізняється від нуля.

Якщо між змінними існує нелінійна залежність, то використовувати коефіцієнт кореляції в якості характеристики тісноти зв'язку не має сенсу. В цьому випадку для вимірювання тісноти зв'язку можна скористатися таким показником, як індекс кореляції (емпіричне кореляційне відношення). Як показник тісноти зв'язку емпіричне кореляційне відношення має більш універсальний характер, оскільки може використовуватися в разі лінійної і нелінійної залежності між показниками, а факторний ознака може бути не тільки кількісним, а рангових і навіть номінальним.

Кореляційне відношення визначається як відношення між груповий дисперсії до загальної дисперсії:

,

де  - Межгрупповая дисперсія;

 - Загальна дисперсія.

Дисперсії визначаються за формулами:

, ,

де k - Число груп;

 - Середнє значення результативної ознаки в j - Групі;

 - Загальна середня результативної ознаки;

 - Число спостережень в j-ої групи, , .

Застосування кореляційного відносини можливо, якщо характер вибіркових даних (кількість, щільність розташування на діаграмі розсіювання) допускає, по-перше, їх групування по осі пояснює змінної, і, по-друге, можливість підрахунку приватних математичних очікувань всередині кожного інтервалу групування.

Для визначення емпіричного кореляційного відносини сукупність значень результативної ознаки розбивається на окремі групи за певною факторному ознакою. Для кожної з цих груп обчислюються відповідні групові середні результативної ознаки. Взаємозв'язок між факторингу ознакою і результативним виявляється в тому, що зі зміною факторної ознаки систематично зростає чи убуває середнє результативного ознаки. Наприклад, групуючи підприємства, що виробляють одну і ту ж продукцію за технічним рівнем виробництва (за рівнем фондоозброєності) і обчисливши для кожної групи середню вироблення на одного працюючого, можна встановити наявність зв'язку між названими факторами. Зміна групових середніх від групи до групи свідчить про наявність зв'язку результативної ознаки з факторингу ознакою, а приблизна рівність групових середніх - про відсутність зв'язку.

Величина кореляційного відносини приймає значення від 0 до 1. Близькість її до нуля говорить про відсутність зв'язку, близькість до одиниці про тісний зв'язок. У разі лінійного зв'язку величина емпіричного кореляційного відносини дорівнює коефіцієнту кореляції. Емпіричне кореляційне відношення не може бути менше коефіцієнта кореляції, що дозволяє використовувати величину різницю  в якості запобіжного відхилення регресійної залежності від лінійного виду.




 КОНСПЕКТ ЛЕКЦІЙ |  Види і форми зв'язків соціально-економічних явищ |  Визначення залежності між модельованими показниками і визначальними їх чинниками |  Основні передумови методу найменших квадратів |  Властивості оцінок параметрів, одержуваних МНК |  МНК для моделі парної регресії |  Матрична форма запису моделі парної регресії |  Оцінка значущості рівняння регресії в цілому і його параметрів |  нелінійна регресія |  Прогнозування в регресійних моделях |

© um.co.ua - учбові матеріали та реферати