загрузка...
загрузка...
На головну

Коефіцієнт кореляції. регресія

  1. B.1. Парна регресія і кореляція
  2. B.2. Множинна регресія і кореляція
  3. Cedil; Коефіцієнт швидкохідності.
  4. Cedil; Коефіцієнт швидкохідності.
  5. D.1. Парна регресія і кореляція
  6. D.2. Множинна регресія і кореляція
  7. I1, i2 - поздовжні ухили вище і нижче перелому профілю; Кф - коефіцієнт фільтрації, м / добу; п - коефіцієнт пористості дренирующего шару

стохастичною зв'язком між випадковими величинами називається такий зв'язок, при якій зі зміною однієї величини змінюється розподіл інший. функціональною залежністю називається такий зв'язок між випадковими величинами, при якій при відомому значенні однієї з величин можна точно вказати значення іншої.

На відміну від функціонального зв'язку при стохастичною зв'язку зі зміною величини Х величина Y має лише тенденцію змінюватися. У міру збільшення тісноти стохастичною залежності вона все більше наближається до функціональної, а в межі їй відповідає. Крайня протилежність функціонального зв'язку - повна незалежність випадкових величин.

Якщо випадкові величини незалежні, То відповідно до теореми множення (7.10-7.11) отримуємо

и  , (7.14)

 . (7.15)

Умова (7.15) можна використовувати в якості необхідного і достатнього критерію незалежності двох випадкових величин, якщо відомі щільності розподілу системи і випадкових величин, в неї входять.

При невідомому законі розподілу системи для оцінки тісноти стохастичною зв'язку найчастіше використовується коефіцієнт кореляції. Дисперсія суми двох випадкових величин X и Y дорівнює

 . (7.16)

якщо X и Y незалежні, то

.

Тоді залежність між X и Y існує, якщо

 . (7.17)

Величина (7.17) називається кореляційним моментом, або ковариацию cov {XY}, (Covxy) Випадкових величин. Вона характеризує не тільки залежність величин, але і їх розсіювання.

З (7.17) випливає, що якщо одна з величин мало відхиляється від свого математичного очікування, то ковариация буде мала навіть при тісному стохастичною зв'язку. Щоб уникнути цього, для характеристики зв'язку використовують безрозмірну величину, звану коефіцієнтом кореляції:

 , (7.18)

де sx і sy - Стандартні відхилення X и Y.

Випадкові величини, для яких ковариация (значить, і коефіцієнт кореляції) дорівнює нулю, називаються некоррелірованнимі. Рівність нулю коефіцієнта кореляції не завжди означає, що випадкові величини X и Y незалежні: зв'язок може проявлятися в моментах більш високого порядку (в порівнянні з математичним очікуванням). Тільки в разі нормального розподілу при rxy = 0 зв'язок між випадковими величинами однозначно відсутній.

Щільність нормального розподілу системи двох випадкових величин виражається наступною формулою:

,

 , (7.19)

де r - Коефіцієнт кореляції. якщо X и Y некорреліровани (т. е. r = 0), то з (7.19) випливає, що

 , (7.20)

т. е. нормально розподілені випадкові величини X и Y не тільки некорреліровани, а й незалежні.

Відзначимо наступні властивості коефіцієнта кореляції:

1) величина rxy не змінюється від додавання до X и Y невипадкових доданків;

2) величина rxy не змінюється від множення X и Y на позитивні числа;

3) якщо одну з величин, не змінюючи інший, помножити на -1, то на -1 примножиться і коефіцієнт кореляції.

Тоді, якщо від вихідних величин перейти до нормованих

, ,

величина rxy не зміниться:  . З (7.16) і (7.18) випливає, що

 . (7.21)

Для нормованих величин s2(X0) = S2(Y0) = 1, тоді

 . (7.22)

Аналогічно в разі різниці (X - Y) Можна отримати, що

 . (7.23)

За визначенням дисперсії

s2(X0 + Y0) ? 0 і s2(X0 - Y0) ? 0,

отже

, ,

, ,

 . (7.24)

при rxy = ± 1 маємо лінійні функціональні залежності виду

,

при цьому якщо rxy = 1, то b1 > 0; якщо rxy = -1, То b1 <0.

Якщо мeжду величинами X и Y є довільна стохастична зв'язок, то -1 < rxy <1. При rxy > 0 говорять про позитивної кореляційної зв'язку між X и Y, при rxy <0 - про негативною. Слід враховувати, що коефіцієнт кореляції характеризує не будь-яку залежність, а тільки лінійну.

Для нормально розподіленої системи двох випадкових величин можна довести, що

 . (7.25)

Умовна щільність розподілу величини Y відповідає щільності нормального розподілу з математичним очікуванням

 (7.26)

і середньоквадратичним відхиленням

 . (7.27)

величина my/x називається умовним математичним очікуванням величини Y при даному Х. Лінійна залежність (7.26) - регресією Y на X. За аналогією пряма

 (7.28)

є регресія X на Y.

Лінії регресії збігаються тільки при наявності лінійної функціональної залежності. З (7.26) і (7.28) видно, що для незалежних X и Y лінії регресії паралельні координатним осях.

7.3. Вибірковий коефіцієнт кореляції.

Перевірка гіпотези про відсутність кореляції

При обробці результатів більшості фізико-хімічних вимірювань виникає задача опису залежності між досліджуваними випадковими величинами. Для експериментального вивчення залежності між двома випадковими величинами Х и Y проводять n незалежних дослідів, при цьому в кожному з них отримують пару значень (xi, yi), i = 1, 2, ..., n. Про наявність чи відсутність кореляції між Х и Y можна якісно судити по виду поля кореляції, завдавши точки (xi, yi) На координатну площину.

Для кількісної оцінки тісноти зв'язку служить вибірковий коефіцієнт кореляції. Як було встановлено раніше, заможними і незміщеними оцінками для математичних очікувань mx и my служать вибіркові середні и  , А генеральних дисперсій и  - Вибіркові дисперсії и  . Можна довести, що заможної і несмещенной оцінкою генеральної ковариации covxy служить вибіркова коваріація

 . (7.29)

Користуючись цією оцінкою, розраховують вибірковий коефіцієнт кореляції

 , (7.30)

який є спроможною оцінкою коефіцієнта кореляції генеральної сукупності зі зміщенням, рівним  . Величина зміщення зменшується зі збільшенням числа дослідів і при n > 50 становить менше 1%. Вибірковий коефіцієнт кореляції має ті ж властивості, що й rxy, І по абсолютній величині теж більше одиниці:

 . (7.31)

Величина вибіркового коефіцієнта кореляції визначає міру криволінійності зв'язку між X и Y. Тому можливі випадки, коли при коефіцієнті кореляції, значно меншому одиниці, зв'язок між X и Y виявляється близькою до функціональної, хоча і істотно нелінійної.

У разі, якщо отримане значення r* близько до нуля, необхідно провести перевірку гіпотези про відсутність кореляції між випадковими величинами. Потрібно визначити, значимо чи відрізняється r* від нуля. Якщо число дослідів n досить велике (більше 20), то в умовах нульової гіпотези (Н0: r = 0) можна використовувати нормальний розподіл зі стандартом

 . (7.32)

Тоді при b = 0,95 генеральний коефіцієнт кореляції знаходиться в наступних довірчих межах:

 . (7.33)

З імовірністю 0,95 можна очікувати, що існує кореляція між випадковими величинами, якщо 0 не міститься всередині довірчого інтервалу.

На практиці, особливо при числі дослідів n <20, часто доводиться вирішувати питання про те, наскільки добре отримані експериментальні точки підтверджують лінійну зв'язок між величинами X и Y. Відповісти на це питання можна в такий спосіб. Припустимо, що дві змінні X и Y дійсно некорреліровани, т. е. при проведенні нескінченно великого числа вимірювань вибірковий коефіцієнт кореляції для них був би рівний нулю. При кінцевому числі вимірів, однак, малоймовірно, щоб величина r* була точно дорівнює нулю через вплив випадкових чинників.

позначимо через

ймовірність того, що n вимірювань двох некоррелірованних змінних X и Y приведуть до значення r* (За модулем), не менший деякого приватного значення r1*. Результати розрахунків ймовірностей Pn для вибірок різного обсягу n і чисел r1* Представлені в табл. 1. Щоб відповісти на питання про те, наскільки добре n пар отриманих значень (xi, yi) Підтверджують лінійну зв'язок між досліджуваними величинами, спочатку по виміряним точкам обчислюють вибірковий коефіцієнт кореляції r1*. Далі по табл. 1 знаходять ймовірність Pn того що n некоррелірованних точок приведуть к значенням коефіцієнта

 Таблиця 1

імовірність Pn того що n вимірювань двох некоррелірованних

змінних дадуть коефіцієнт кореляції |r* | ? r1*

(Прочерками відзначені значення, менші 0,01)

n r1*
 0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9
 0.94  0.87  0.81  0.74  0.67  0.59  0.51  0.41  0.29
 0.90  0.80  0.70  0.60  0.50  0.40  0.30  0.20  0.10
 0.87  0.75  0.62  0.50  0.39  0.28  0.19  0.10  0.04
 0.85  0.70  0.56  0.43  0.31  0.21  0.12  0.06  0.01
 0.83  0.67  0.51  0.37  0.25  0.15  0.08  0.03 -
 0.81  0.63  0.47  0.33  0.21  0.12  0.05  0.02 -
 0.80  0.61  0.43  0.29  0.17  0.09  0.04  0.01 -
 0.78  0.58  0.40  0.25  0.14  0.07  0.02  0.01 -
 0.77  0.56  0.37  0.22  0.12  0.05  0.02 - -
 0.76  0.53  0.34  0.20  0.10  0.04  0.01 - -
 0.75  0.51  0.32  0.18  0.08  0.03  0.01 - -
 0.73  0.49  0.30  0.16  0.07  0.02  0.01 - -
 0.72  0.47  0.28  0.14  0.06  0.02 - - -
 0.71  0.46  0.26  0.12  0.05  0.01 - - -
 0.70  0.44  0.21  0.11  0.04  0.01 - - -
 0.69  0.43  0.23  0.10  0.04  0.01 - - -
 0.68  0.41  0.21  0.09  0.03  0.01 - - -
 0.67  0.40  0.20  0.08  0.03  0.01 - - -
 0.63  0.34  0.15  0.05  0.01 - - - -
 0.60  0.29  0.11  0.03  0.01 - - - -
 0.57  0.25  0.08  0.02 - - - - -
 0.54  0.22  0.06  0.01 - - - - -
 0.49  0.16  0.03 - - - - - -
 0.45  0.13  0.02 - - - - - -
 0.38  0.08  0.01 - - - - - -
 0.32  0.05 - - - - - - -

кореляції, не меншої r1*. якщо Pn ? 0,05 (для «релевантними» кореляцій Pn ? 0,01), то гіпотеза про лінійну залежність між величинами X и Y приймається (при обраному рівні значущості 0,05 або 0,01 відповідно).

Наприклад, за вибіркою з 5 пар значень (xi, yi) отримано r1* = 0,9. Імовірність отримання коефіцієнта r* Такого, що |r* | ? 0,9, для 5 некоррелірованних точок дорівнює Pn = 0,04 (табл. 1). Отже, гіпотеза про лінійної зв'язку двох досліджуваних величин може бути прийнята з рівнем значимості 0,05.

7.4. Наближена регресія.

Метод найменших квадратів

При дослідженні кореляційної залежності між двома випадковими величинами необхідно по даній вибірці об'ємом n знайти рівняння наближеною регресії, Найчастіше у вигляді наступного полінома:

 , (7.34)

де коефіцієнти b0 і bj є оцінками відповідних теоретичних коефіцієнтів істинного рівняння регресії

 , (7.35)

і оцінити допустиму при цьому помилку. Для цього зазвичай використовують метод найменших квадратів.

Розглянемо деякий клас функцій, аналітичний вираз яких містить певну кількість невизначених коефіцієнтів, рівне k. Найкраще рівняння наближеною регресії дає та функція з розглянутого класу, для якої сума квадратів S має найменше значення:

 . (7.36)

Припустимо, що експериментальні точки відхиляються від рівняння істинної регресії j (x) Тільки в результаті впливу випадкових факторів, а помилки вимірювання нормально розподілені. Отримані в дослідах значення yi будуть розподілені по нормальному закону з математичним очікуванням  = j (xi) І дисперсією  . При равноточних експериментах =  = ... = =  . Тоді щільність розподілу величини Yi набирає вигляду

 . (7.37)

В результаті дослідів випадкові величини Yi взяли сукупність значень yi. Використовуємо принцип максимальної правдоподібності: визначимо так математичні очікування j (xi), Щоб ймовірність цієї події була максимальною. позначимо через рi = fi (yi) d ймовірність того, що випадкова величина Yi прийме значення з інтервалу yi - D / 2, yi + D / 2. Можливість спільного здійснення подібних подій для i = 1, 2, ..., n дорівнює

 , (7.38)

де К - Коефіцієнт, що не залежить від j (xi).

Очевидно, що при заданому s2 ймовірність Р максимальна за умови, що

.

Таким чином, при нормальному розподілі випадкових величин оптимальність методу найменших квадратів легко обгрунтовується.

Знаходження коефіцієнтів рівняння наближеною регресії за цим методом пов'язано із завданням визначення мінімуму функції багатьох змінних. нехай

 . (7.40)

Потрібно знайти значення коефіцієнтів b0, b1, b2, ..., bk так щоб

.

якщо S приймає мінімальне значення, то

 , (7.41)

що відповідає наступній системі рівнянь:

,

 , (7.42)

.................................,

.

Перетворимо (7.42)

,

 , (7.43)

..........................................,

.

В останній системі міститься стільки ж (k + 1) рівнянь, скільки і невідомих коефіцієнтів в рівнянні (7.40), т. Е. Вона є системою нормальних рівнянь. оскільки S ? 0 при будь-яких значеннях коефіцієнтів, то у неї повинен існувати щонайменше один мінімум. Тому якщо система (7.43) має єдиний розв'язок, то воно і є мінімумом для S.




Попередня   1   2   3   4   5   6   7   8   9   10   11   12   Наступна

Білоруський державний університет | Дисперсійний аналіз, його завдання. Проведення однофакторного і двухфакторного дисперсійного аналізу. | Вихідні дані для однофакторного дисперсійного аналізу | Без паралельних дослідів. Фактори А і В досліджуються на 3 рівнях | Лекція 10 | Латинський квадрат 3 x 3 | екстремальних експериментів | З фіктивної змінної | при кожному поєднанні рівнів факторів |

загрузка...
© um.co.ua - учбові матеріали та реферати