На головну

Регресивні моделі прогнозування

  1.  HTM моделює світ шляхом побудови уявлень причин, включаючи встановлене моторне поведінку
  2.  V2: Математичні моделі та оптимізація в економіці
  3.  VI. Моделі макроекономічної рівноваги.
  4.  Z - моделі
  5.  Адаптивна модель прогнозування (Adoptive model of forecasting)
  6.  Алгоритм побудови прогнозної моделі
  7.  Алгоритм статистичного моделювання

В економічних дослідженнях часто вивчаються зв'язки між випадковими і невипадковими величинами. Такі зв'язку називають регресійний, А метод їх вивчення - регресійний аналізом.

Математично задача формулюється наступним чином. Потрібно знайти аналітичний вираз залежності економічного явища (наприклад, продуктивності праці) від які його чинників; т. е. шукається функція y = f (x1, x2, ..., Xn), Що відображає залежність, через яку можна знайти наближене значення залежного показника y. В якості опції в регресійному аналізі приймається випадкова змінна, а аргументами є невипадкові змінні.

Прикладами можливого застосування регресійного аналізу в економіці є дослідження впливу на продуктивність праці і собівартість таких чинників, як величина основних виробничих фондів, заробітна плата та ін .; вплив безробіття на зміну заробітної плати на ринках праці (криві Філіпса); залежність структури витрат від рівня доходів (криві Енгеля); функції споживання і попиту і багато інших.

При виборі виду регресійної залежності керуються наступним: він повинен узгоджуватися з професійно-логічними міркуваннями щодо природи і характеру досліджуваних зв'язків; по можливості використовують прості залежності, які не потребують складних розрахунків, легко економічно інтерпретовані і практично застосовні.

Практика регресійного аналізу говорить про те, що рівняння лінійної регресії часто досить добре виражає залежність між показниками навіть тоді, коли насправді вони виявляються більш складними. Це пояснюється тим, що в межах досліджуваних величин найскладніші залежності можуть носити наближено лінійний характер.

У загальній формі прямолінійний рівняння регресії має вигляд

y = a0+ b1 * x1+ b2 * x2+ ........ + Bm * xm, (5.1)

де y - Результативний ознака, досліджувана змінна;

xi - Позначення фактора (незалежна змінна);

m - Загальне число чинників;

a0 - Постійний (вільний) член рівняння;

bi - Коефіцієнт регресії при факторі.

Збільшення результативної ознаки y при зміні фактора xi на одиницю дорівнює коефіцієнту регресії bi (З позитивним знаком); зменшення - (з негативним знаком).

Рівняння регресії можна зобразити графічно (рис. 5.1).

у

 
 


 відрізок «b»показує

b  приріст «y»при

 Збільшена величина «х»

на одиницю.

 
 


а0

х

 1 2 3

Малюнок 5.1 - Графік простий парної лінійної регресії y = a0+ bx

Очевидна економічна інтерпретація результатів лінійної регресії одна з основних причин її застосування в дослідженні і прогнозуванні економічних процесів. Залежно від числа факторів, що впливають на результативний показник, розрізняють парну і множинну регресії.

Коротко викладемо основні положення по розробці і використанню в прогнозуванні множинних лінійних регресійних моделей (парна регресія може бути розглянута як окремий випадок множинної). Економічні явища визначаються, як правило, великим числом сукупно діючих факторів. У зв'язку з цим часто виникає завдання дослідження залежності однієї змінної Y від декількох пояснюють змінних X1, х2... Хn. Це завдання вирішується за допомогою множинного регресійного аналізу. Побудова рівняння множинної регресії починається з вирішення питання про специфікацію моделі, що включає відбір факторів і вибір виду рівняння регресії. Фактори, що включаються у множинну регресію, повинні відповідати наступним вимогам: вони повинні бути кількісно вимірні (якісних факторів необхідно надати кількісну визначеність); між факторами не повинно бути високої кореляційної, а тим більше функціональної залежності, т. е. наявності мультиколінеарності.

Включення в модель мультіколлінеарності чинників може призвести до таких наслідків: утруднюється інтерпретація параметрів множинної регресії як характеристик дії факторів в «чистому вигляді», оскільки фактори пов'язані між собою; параметри лінійної регресії втрачають економічний сенс; оцінки параметрів ненадійні, мають великі стандартні помилки і змінюються зі зміною обсягу спостережень.

нехай  - Матриця - стовпець значень залежної змінної розміру n (значок «Т»Означає транспонування);

 - Матриця пояснюють змінних;

 - Матриця - стовпець (вектор) параметрів розміру m + 1;

 - Матриця - стовпець (вектор) залишків розміру n.

Тоді в матричної формі модель множинної лінійної регресії запишеться наступним чином:

 (5.2)

При оцінці параметрів рівняння регресії (вектора b) застосовується метод найменших квадратів (МНК). При цьому робляться певні передумови.

1. У моделі (5.2) ? - Випадковий вектор, Х - Невипадкова (детермінована) матриця.

2. Математичне сподівання величини залишків дорівнює нулю. м (?) = 0n.

3. Дисперсія залишків ?i постійна для будь-якого i (Умова гомоскедастичність), залишки ?i і ?j при i ? j НЕ коррелірованни: .

4. ? - Нормально розподілений випадковий вектор.

5. r (X) = m + 1  стовпці матриці Х повинні бути лінійно незалежними (ранг матриці Х максимальний, а число спостережень n перевершує ранг матриці).

Модель (5.2), в якій залежна змінна, залишки і пояснюючі змінні задовольняють передумов 1-5 (передумови перераховані вище) називається класичної нормальної лінійної моделлю множинної регресії (КНЛММР). Якщо не виконується тільки передумова 4, то модель називається класичної лінійної моделлю множинної регресії (КЛММР).

Відповідно до методу найменших квадратів невідомі параметри вибираються таким чином, щоб сума квадратів відхилень фактичних значень від значень, знайдених за рівнянням регресії, була мінімальною:

 (5.3)

Рішенням цього завдання є вектор

Оцінка якості регресійного рівняння здійснюється за сукупністю критеріїв, які перевіряють адекватність моделі фактичним умовам і статистичної достовірності регресії.

Однією з найбільш ефективних оцінок адекватності моделі є коефіцієнт детермінації R2, Який визначається за формулою (5.4):

 , (5.4)

де yi - Фактичне значення результуючого ознаки;

 - Значення результуючого ознаки, розраховане за отриманою моделі регресії;

 - Середнє значення ознаки;

RSS - Пояснена сума квадратів;

TSS - Загальна сума квадратів.

 характеризує частку варіації залежної змінної, обумовленої регресією або мінливістю пояснюють змінних. чим ближче R2 до одиниці, тим краще побудована регресійна модель описує залежність між пояснюють і залежною змінною. В разі  досліджувану зв'язок можна трактувати як функціональну (а не статистичну), що вимагає додаткових якісних і кількісних відомостей і змін в процесі дослідження.

Слід мати на увазі, що при включенні в модель нової пояснює змінної, коефіцієнт детермінації збільшується, хоча це і не обов'язково означає поліпшення якості регресійній моделі. У зв'язку з цим краще використовувати скоригований (поправлений) коефіцієнт детермінації R2, Перераховується за формулою:

 (5.5)

де n - Число спостережень,

m - Число параметрів при змінних х.

Таким чином, скоригований коефіцієнт детермінації може зменшуватися при додаванні в модель нової пояснює змінної, що не робить істотного впливу на результативну ознаку.

Середня відносна помилка апроксимації розраховується за формулою:

 (5.6)

Більшість авторів рекомендують вважати модель регресії адекватної, якщо середня відносна помилка апроксимації не перевищує 12%.

Перевірку значущості виду регресійної залежності можна здійснювати із застосуванням дисперсійного аналізу. Основною ідеєю цього аналізу є розкладання загальної суми квадратів відхилень результативної змінної y від середнього значення y на «пояснення» і «залишкову»:

 (5.7)

Для приведення дисперсій до порівнянної увазі, визначають дисперсії на одну ступінь свободи. Результати обчислень заносять в спеціальну таблицю дисперсійного аналізу (табл. 5.1). В даній таблиці n - Число спостережень, m - Число параметрів при змінних х. Порівнюючи отримані оцінки пояснене і залишкової дисперсії на одну ступінь свободи, визначають значення F-критерію Фішера, використовуваного для оцінки значущості рівняння регресії:

 . (5.8)

За допомогою F - Критерію перевіряється нульова гіпотеза про рівність дисперсій H0: ?R2= ?x2. Якщо нульова гіпотеза справедлива, то пояснена і залишкова дисперсії не відрізняються один від одного.

Таблиця 5.1 - Результати дисперсійного аналізу

 компоненти дисперсії  сума квадратів  Число ступенів свободи  Оцінка дисперсії на одну ступінь свободи
 Загальна n-1
 пояснена n
 залишкова n-m-1

Для того, щоб рівняння регресії було значимо в цілому (гіпотеза Н0 була спростована) необхідно, щоб пояснена дисперсія перевищувала залишкову в кілька разів. критичне значення F - Критерію визначається по таблиці Фішера - Снедекора (додаток 1). Fтабл - Максимально можливе значення критерію під впливом випадкових факторів при ступенях свободи k1 = m, k2 = N-m-1 (Для лінійної регресії m = 1) і рівні значущості ?. Рівень значущості ? - ймовірність відкинути правильну гіпотезу за умови, що вона вірна. Зазвичай величина ? приймається рівною 0,05 або 0,01. Розрахункове значення порівнюється з табличним: якщо воно перевищує табличне (Fрозр> Fтабл), То гіпотеза Н0 відкидається, і рівняння регресії визнається значущим. якщо Fрозртабл, То рівняння регресії вважається статистично незначущим. нульова гіпотеза Н0 не може бути відхилена.

Розрахункове значення F-критерію пов'язано з коефіцієнтом детермінації R2 таким співвідношенням:

 (5.9)

де m число параметрів при змінних х;

n - Число спостережень.

Для оцінки статистичної значущості коефіцієнтів регресії і коефіцієнта кореляції r (r = ) застосовується t-критерій Стьюдента.

Оцінка значущості коефіцієнтів регресії зводиться до перевірки гіпотези про рівність нулю коефіцієнта регресії при відповідному факторном ознаці, т. Е. Гіпотези:

Н0: bi= 0 (5.10)

Перевірка нульової статистичної гіпотези проводиться за допомогою t - Критерію Стьюдента:

 (5.11)

де bi - Коефіцієнт регресії при хi,

mbi - Середня квадратична помилка коефіцієнта регресії bi.

Середня квадратична помилка коефіцієнта регресії може бути визначена за формулою:

 (5.12)

де  - Середньоквадратичне відхилення для ознаки у;

 - Середньоквадратичне відхилення для ознаки хi;

 - Коефіцієнт детермінації для рівняння множинної регресії;

 - Коефіцієнт детермінації для залежності фактора хi з усіма іншими факторами рівняння множинної регресії;

n-m-1 - число ступенів свободи для залишкової суми квадратів відхилень.

Використання формули (5.12) для розрахунку середньої квадратичної помилки коефіцієнта регресії передбачає розрахунок по матриці межфакторной кореляції відповідних коефіцієнтів детермінації. Тому іноді рекомендується використовувати для визначення середньоквадратичної помилки коефіцієнта регресії mbiприватні критерії Фішера.

Розрахункове значення критерію Стьюдента порівнюється з табличним tтабл при заданому рівні значимості (Для економічних процесів і явищ) і числі ступенів свободи, що дорівнює n-2. Якщо розрахункове значення перевищує табличне, то гіпотезу про неістотність коефіцієнта регресії bi можна відхилити.

У лінійної моделі множинної регресії  коефіцієнти регресії bi характеризують середня зміна результату зі зміною відповідного фактора на одиницю при незмінному значенні інших факторів, закріплених на середньому рівні.

Значимість коефіцієнта кореляції r перевіряється також на основі tкритерію Стьюдента (додаток 2). При цьому висувається і перевіряється гіпотеза про рівність коефіцієнта кореляції нулю (Н0: R = 0). При перевірці цієї гіпотези використовується t-статистика:

 . (5.13)

При виконанні Н0 t-Статистика має розподіл Стьюдента з вхідними параметрами: ? = 0,05; k = n-2. Якщо розрахункове значення більше табличного, то гіпотеза Н0 відкидається.

На практиці часто буває необхідно порівняти вплив на залежну змінну різних пояснюють змінних, коли останні виражаються різними одиницями виміру. У цьому випадку використовують стандартизовані коефіцієнти регресії ?i і коефіцієнти еластичності Эi (i = 1,2, ..., m).

Рівняння регресії в стандартизованої формі зазвичай представляють у вигляді (5.14):

 (5.14)

де  - Стандартизовані змінні.

Замінивши значення «у»на ty, А значення «х»на  отримуємо нормовані або стандартизовані змінні. В результаті такого нормування середні значення всіх стандартизованих змінних дорівнюють нулю, а дисперсії дорівнюють одиниці, т. Е.

Коефіцієнти звичайної ( «чистої») регресії пов'язані зі стандартизованими коефіцієнтами наступним співвідношенням:

 (5.15)

Стандартизовані коефіцієнти можуть приймати значення від -1 до +1 і показують, на скільки стандартних відхилень (сигм) зміниться в середньому результат, якщо відповідний фактор хi зміниться на одне стандартне відхилення (одну сигму) при незмінному середньому рівні інших факторів. Дані коефіцієнти зберігають свою величину при зміні масштабу шкали. Порівнюючи стандартизовані коефіцієнти один з одним, можна ранжувати фактори за силою їх впливу на результат.

В економічних дослідженнях широке застосування знаходить такий показник, як коефіцієнт еластичності, який вираховується за формулою (5.16):

 , (5.16)

де  - Похідна, що характеризує співвідношення приростів результату і фактора для відповідної форми зв'язку.

Середні коефіцієнти еластичності для лінійної регресії обчислюються за формулою (5.17):

 (5.17)

Коефіцієнт еластичності показує, на скільки відсотків (від середньої) зміниться в середньому Y при збільшенні тільки фактора Xi на 1%.

При економетричному моделюванні реальних економічних процесів передумови МНК нерідко виявляються порушеними: дисперсії залишків моделі не однакові (гетероскедастичності залишків), або спостерігається кореляція між залишками в різні моменти часу (автокоррелірованние залишки).

Перевірити модель на гетероскедастичності можна за допомогою наступних тестів: рангової кореляції Спірмена; Голдфельда-Квандта; Уайта; Глейзера. У разі виявлення гетероскедастичності залишків для оцінки параметрів регресії використовується узагальнений метод найменших квадратів (ОМНК). Технологія ОМНК докладно описана в багатьох підручниках з економетрики.

Вплив результатів попередніх спостережень на результати наступних призводить до того, що випадкові величини (помилки) ?i у регресійній моделі стають залежними. Такі моделі називаються моделями з наявністю автокореляції. Як правило, якщо автокорреляция присутній, то найбільший вплив на подальше спостереження надає результат попереднього спостереження. Наявність автокореляції між сусідніми рівнями ряду можна визначити за допомогою тесту Дарбіна-Уотсона. Розрахункове значення критерію Дарбіна-Уотсона визначається за такою формулою:

 , (5.18)

 . (5.19)

Т. е. Величина  є відношення суми квадратів різниць послідовних значень залишків до залишкової суми квадратів по моделі регресії.

Значення критерію знаходяться в інтервалі від 0 до 4. За таблицями критичних точок розподілу Дарбіна-Уотсона для заданого рівня значущості  , Числа спостережень (n) І кількості пояснюють змінних (m) Знаходять порогові значення dн (Нижня межа) і dв (Верхня межа) (додаток 3).

Якщо розрахункове значення (табл. 5.2):

 , То гіпотеза про відсутність автокореляції не відкидається (приймається);

 або  , То питання про відкиданні або прийнятті гіпотези залишається відкритим (розрахункове значення потрапляє в зону невизначеності);

 , То приймається альтернативна гіпотеза про наявність позитивної автокореляції;

 , То приймається альтернативна гіпотеза про наявність негативної автокореляції.

Таблиця 5.2 - Проміжки всередині інтервалу [0 - 4]

 приймається альтернативна гіпотеза про наявність положітельнойавтокорреляціі  питання про відкиданні або прийнятті гіпотези залишається відкритим (розрахункове значення потрапляє в зону невизначеності)  гіпотеза про відсутність автокореляції не відкидається (приймається)  питання про відкиданні або прийнятті гіпотези залишається відкритим (розрахункове значення потрапляє в зону невизначеності)  приймається альтернативна гіпотеза про наявність негативної автокореляції

Недолік тесту Дарбіна-Уотсона полягає насамперед у тому, що він містить зони невизначеності. По-друге, він дозволяє виявити наявність автокореляції тільки між сусідніми рівнями, тоді як автокорреляция може існувати і між більш віддаленими спостереженнями. Тому поряд з тестом Дарбіна-Уотсона для перевірки наявності автокореляції використовуються тест серій (Бреуша-Годфрі), Q-тест Льюінга-Боксу і інші. Найбільш поширеним прийомом усунення автокореляції у тимчасових рядах є побудова авторегресійних моделей.

 




 Лінійних одночасних рівнянь |  Приклад виконання завдання в середовищі Microsoft Excel |  Завдання для самостійної роботи |

© um.co.ua - учбові матеріали та реферати