загрузка...
загрузка...
На головну

Лінійна модель парної регресії і кореляції

  1. Автокорреляция в залишках, її вимір і інтерпретація. Критерій Дарбіна-Уотсона в оцінці якості трендового рівняння регресії.
  2. автомодельності
  3. Алгоритм - модель діяльності виконавця
  4. Американська модель менеджменту
  5. Американська модель управління
  6. Американська модель управління. Основні риси, переваги, недоліки.
  7. Безконфліктна модель суспільства.

Розглянемо найпростішу модель парної регресії - лінійну регресію. Лінійна регресія знаходить широке застосування в економетрики зважаючи чіткої економічної інтерпретації її параметрів.

Лінійна регресія зводиться до знаходження рівняння виду

 або  . (1.1)

рівняння виду  дозволяє за заданим значенням фактора  знаходити теоретичні значення результативної ознаки, підставляючи в нього фактичні значення фактора .

Побудова лінійної регресії зводиться до оцінки її параметрів - и  . Класичний підхід до оцінювання параметрів лінійної регресії заснований на методі найменших квадратів (МНК). МНК дозволяє отримати такі оцінки параметрів и  , При яких сума квадратів відхилень фактичних значень результативної ознаки  від теоретичних  мінімальна:

 . (1.2)

Тобто з усього безлічі ліній лінія регресії на графіку вибирається так, щоб сума квадратів відстаней по вертикалі між точками і цією лінією була б мінімальною (рис. 1.2):

Мал. 1.2. Лінія регресії з мінімальною дисперсією залишків.

Як відомо з курсу математичного аналізу, щоб знайти мінімум функції (1.2), треба обчислити приватні похідні по кожному з параметрів и  і прирівняти їх до нуля. позначимо  через  , Тоді:

.

 (1.3)

Після нескладних перетворень, отримаємо наступну систему лінійних рівнянь для оцінки параметрів и :

 (1.4)

Вирішуючи систему рівнянь (1.4), знайдемо шукані оцінки параметрів и  . Можна скористатися наступними готовими формулами, які йдуть безпосередньо з рішення системи (1.4):

,  , (1.5)

де  - Коваріація ознак и ,  - Дисперсія ознаки и

, , , .

Коваріація - числова характеристика спільного розподілу двох випадкових величин, що дорівнює математичному очікуванню твори відхилень цих випадкових величин від їх математичних очікувань. Дисперсія - характеристика випадкової величини, яка визначається як математичне сподівання квадрата відхилення випадкової величини від її математичного очікування. Математичне сподівання - сума творів значень випадкової величини на відповідні ймовірності [3].

параметр  називається коефіцієнтом регресії. Його величина показує середня зміна результату зі зміною фактора на одну одиницю.

Можливість чіткої економічної інтерпретації коефіцієнта регресії зробила лінійне рівняння регресії досить поширеним в економетричних дослідженнях.

формально  - значення  при  . Якщо ознака-фактор  не може мати нульового значення, то вищевказана трактування вільного члена  не має сенсу, тобто параметр  може не мати економічного змісту.

Рівняння регресії завжди доповнюється показником тісноти зв'язку. При використанні лінійної регресії в якості такого показника виступає лінійний коефіцієнт кореляції  , Який можна розрахувати за такими формулами:

 . (1.6)

Лінійний коефіцієнт кореляції знаходиться в межах:  . Чим ближче абсолютне значення  до одиниці, тим сильніше лінійного зв'язку між факторами (при  маємо сувору функціональну залежність). Але слід мати на увазі, що близькість абсолютної величини лінійного коефіцієнта кореляції до нуля ще не означає відсутності зв'язку між ознаками. При інший (нелінійної) специфікації моделі зв'язок між ознаками може виявитися досить тісною.

Для оцінки якості підбору лінійної функції розраховується квадрат лінійного коефіцієнта кореляції  , Званий коефіцієнтом детермінації. Коефіцієнт детермінації характеризує частку дисперсії результативної ознаки  , Пояснюється регресією, в загальній дисперсії результативної ознаки:

 , (1.7)

де , .

відповідно величина  характеризує частку дисперсії  , Викликану впливом інших, не врахованих в моделі, факторів.

Після того як знайдено рівняння лінійної регресії, проводиться оцінка значимості як рівняння в цілому, так і окремих його параметрів.

Перевірити значимість рівняння регресії - значить встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальними даними і чи достатньо включених в рівняння пояснюють змінних (однієї або декількох) для опису залежною змінною.

Щоб мати загальне судження про якість моделі з відносних відхилень по кожному спостереженню, визначають середню помилку апроксимації:

 . (1.8)

Середня помилка апроксимації не повинна перевищувати 8-10%.

Оцінка значущості рівняння регресії в цілому проводиться на основі  критерію Фішера, якому передує дисперсійний аналіз. У математичній статистиці дисперсійний аналіз розглядається як самостійний інструмент статистичного аналізу. У економетрики він застосовується як допоміжний засіб для вивчення якості регресійній моделі.

Згідно з основною ідеєю дисперсійного аналізу, загальна сума квадратів відхилень змінної  від середнього значення  розкладається на дві частини - «пояснення» і «не можна було пояснити»:

,

де  - Загальна сума квадратів відхилень;  - Сума квадратів відхилень, пояснена регресією (або факторна сума квадратів відхилень);  - Залишкова сума квадратів відхилень, що характеризує вплив неврахованих в моделі факторів.

Схема дисперсійного аналізу має вигляд, представлений в таблиці 1.1 (  - Число спостережень,  - Число параметрів при змінної  ).

Таблиця 1.1

 компоненти дисперсії  сума квадратів  Число ступенів свободи  Дисперсія на одну ступінь свободи
 Загальна
 факторна
 залишкова

Визначення дисперсії на одну ступінь свободи призводить дисперсії до порівнянного виду. Зіставляючи факторну і залишкову дисперсії в розрахунку на одну ступінь свободи, отримаємо величину  критерію Фішера:

 . (1.9)

Фактичне значення  критерію Фішера (1.9) порівнюється з табличним значенням  при рівні значущості  і ступенях свободи и  . При цьому, якщо фактичне значення  критерію більше табличного, то визнається статистична значимість рівняння в цілому.

Для парної лінійної регресії  , тому

 . (1.10)

величина  критерію пов'язана з коефіцієнтом детермінації  , І її можна розрахувати за такою формулою:

 . (1.11)

У парній лінійної регресії оцінюється значимість не тільки рівняння в цілому, але й окремих його параметрів. З цією метою по кожному з параметрів визначається його стандартна помилка: и .

Стандартна помилка коефіцієнта регресії визначається за формулою:

 , (1.12)

де  - Залишкова дисперсія на одну ступінь свободи.

Величина стандартної помилки спільно з  -розподіленого Стьюдента при  ступенях свободи застосовується для перевірки суттєвості коефіцієнта регресії і для розрахунку його довірчого інтервалу.

Для оцінки суттєвості коефіцієнта регресії його величина порівнюється з його стандартною помилкою, тобто визначається фактичне значення  критерію Стьюдента:  яке потім порівнюється з табличним значенням при певному рівні значущості  і числі ступенів свободи  . Довірчий інтервал для коефіцієнта регресії визначається як  . Оскільки знак коефіцієнта регресії вказує на зростання результативної ознаки  при збільшенні ознаки-фактора (  ), Зменшення результативної ознаки при збільшенні ознаки-фактора (  ) Або його незалежність від незалежної змінної (  ) (Див. Рис. 1.3), то межі довірчого інтервалу для коефіцієнта регресії не повинні містити суперечливих результатів, наприклад,  . Такого роду запис вказує, що справжнє значення коефіцієнта регресії одночасно містить позитивні і негативні величини і навіть нуль, чого не може бути.

Мал. 1.3. Нахил лінії регресії в залежності від значення параметра .

Стандартна помилка параметра  визначається за формулою:

 . (1.13)

Процедура оцінювання суттєвості даного параметра не відрізняється від розглянутої вище для коефіцієнта регресії. обчислюється  -критерій:  , Його величина порівнюється з табличним значенням при  ступенях свободи.

Значимість лінійного коефіцієнта кореляції перевіряється на основі величини помилки коефіцієнта кореляції :

 . (1.14)

Фактичне значення  критерію Стьюдента визначається як .

Існує зв'язок між  критерію Стьюдента і  критерію Фішера:

 . (1.15)

У прогнозних розрахунках за рівнянням регресії визначається пророкує  значення як точковий прогноз  при  , Тобто шляхом підстановки в рівняння регресії  відповідного значення  . Однак точковий прогноз явно не реальний. Тому він доповнюється розрахунком стандартної помилки  , Тобто  , І відповідно інтервального оцінкою прогнозного значення :

,

де  , а  - Середня помилка прогнозованого індивідуального значення:

 . (1.16)

Розглянемо приклад. За даними проведеного опитування восьми груп сімей відомі дані зв'язку витрат населення на продукти харчування з рівнем доходів сім'ї.

Таблиця 1.2

 Витрати на продукти харчування,  , тис. руб.  0,9  1,2  1,8  2,2  2,6  2,9  3,3  3,8
 Доходи сім'ї,  , тис. руб.  1,2  3,1  5,3  7,4  9,6  11,8  14,5  18,7

Припустимо, що зв'язок між доходами сім'ї та витратами на продукти харчування лінійна. Для підтвердження нашого припущення побудуємо поле кореляції.

Мал. 1.4.

За графіком видно, що точки шикуються в деяку пряму лінію.

Для зручності подальших обчислень складемо таблицю.

Таблиця 1.3

   ,%
 1,2  0,9  1,08  1,44  0,81  1,038  -0,138  0,0190  15,33
 3,1  1,2  3,72  9,61  1,44  1,357  -0,157  0,0246  13,08
 5,3  1,8  9,54  28,09  3,24  1,726  0,074  0,0055  4,11
 7,4  2,2  16,28  54,76  4,84  2,079  0,121  0,0146  5,50
 9,6  2,6  24,96  92,16  6,76  2,449  0,151  0,0228  5,81
 11,8  2,9  34,22  139,24  8,41  2,818  0,082  0,0067  2,83
 14,5  3,3  47,85  210,25  10,89  3,272  0,028  0,0008  0,85
 18,7  3,8  71,06  349,69  14,44  3,978  -0,178  0,0317  4,68
 Разом  71,6  18,7  208,71  885,24  50,83  18,717  -0,017  0,1257  52,19
 Середнє значення  8,95  2,34  26,09  110,66  6,35  2,34 -  0,0157  6,52
 5,53  0,935 - - - - - - -
 30,56  0,874 - - - - - - -

Розрахуємо параметри лінійного рівняння парної регресії  . Для цього скористаємося формулами (1.5):

;

.

Отримали рівняння:  . Тобто зі збільшенням доходу сім'ї на 1000 руб. витрати на харчування збільшуються на 168 руб.

Як було зазначено вище, рівняння лінійної регресії завжди доповнюється показником тісноти зв'язку - лінійним коефіцієнтом кореляції :

.

Близькість коефіцієнта кореляції до 1 вказує на тісний лінійний зв'язок між ознаками.

коефіцієнт детермінації  (Приблизно той же результат отримаємо, якщо скористаємося формулою (1.7)) показує, що рівнянням регресії пояснюється 98,7% дисперсії результативної ознаки, а на частку інших факторів припадає лише 1,3%.

Оцінимо якість рівняння регресії в цілому за допомогою  критерію Фішера. Порахуємо фактичне значення  критерію:

.

Табличне значення ( , ,  ):  . Так як  , То визнається статистична значимість рівняння в цілому.

Для оцінки статистичної значущості коефіцієнтів регресії і кореляції розрахуємо  -критерій Стьюдента і довірчі інтервали кожного з показників. Розрахуємо випадкові помилки параметрів лінійної регресії і коефіцієнта кореляції :

,

,

.

Фактичні значення  -Статистика: , ,  . табличне значення  критерію Стьюдента при  і числі ступенів свободи  є  . Так як , и  , То визнаємо статистичну значущість параметрів регресії і показника тісноти зв'язку. Розрахуємо довірчі інтервали для параметрів регресії и : и  . Отримаємо, що и .

Середня помилка апроксимації (знаходимо за допомогою стовпчика 10 таблиці 1.3; )  говорить про хорошу якість рівняння регресії, тобто свідчить про хорошому підборі моделі до вихідних даних.

І, нарешті, знайдемо прогнозне значення результативного фактора  при значенні ознаки-фактора, що становить 110% від середнього рівня  , Тобто знайдемо витрати на харчування, якщо доходи сім'ї складуть 9,85 тис. руб.

 (тис. руб.)

Значить, якщо доходи сім'ї складуть 9,845 тис. Руб., То витрати на харчування будуть 2,490 тис. Руб.

Знайдемо довірчий інтервал прогнозу. Помилка прогнозу

,

а довірчий інтервал (  ):

.

Тобто прогноз є статистично надійним.

Тепер на одному графіку зобразимо вихідні дані і лінію регресії:

Мал. 1.5.



Попередня   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   Наступна

економетрики | Множинна регресія і кореляція | Рівняння множинної регресії | Властивості оцінок на основі МНК | І показники якості регресії | З гетероскедастичними залишками | Узагальнений метод найменших квадратів (ОМНК) | Регресивні моделі зі змінною структурою | Системи економетричних рівнянь | Структурна і приведена форми моделі |

загрузка...
© um.co.ua - учбові матеріали та реферати