загрузка...
загрузка...
На головну

Порівняння двох частотних розподілів. Критерій хі-квадрат

  1. BL (MM) критерій
  2. F - критерій Фішера
  3. Автокорреляция в залишках, її вимір і інтерпретація. Критерій Дарбіна-Уотсона в оцінці якості трендового рівняння регресії.
  4. Автокорреляция в залишках. Критерій Дарбіна-Уотсона
  5. Акцентуації характеру, критерій і види. Класифікації акцентуйованих характерів за К. Леонгардом і А. Е. Личко.
  6. Б) Внутрішнє і зовнішнє порівняння
  7. В) Мікро- та макросравненіе

У практиці біологічних досліджень часто буває необхідно перевірити ту чи іншу гіпотезу, т. Е. З'ясувати, наскільки отриманий експериментатором фактичний матеріал підтверджує теоретичне припущення, наскільки аналізовані дані збігаються з теоретично очікуваними. Виникає запитання статистичної оцінки різниці між фактичними даними і теоретичним очікуванням, встановлення того, в яких випадках і з яким ступенем ймовірності можна вважати цю різницю достовірної і, навпаки, коли її слід вважати несуттєвою, незначною, що знаходиться в межах випадковості. В останньому випадку зберігається гіпотеза, на основі якої розраховані теоретично очікувані дані або показники. Таким вариационно-статистичним прийомом перевірки гіпотези служить метод хі-квадрат (?2). Цей показник часто називають «критерієм відповідності» або «критерієм згоди» Пірсона. З його допомогою можна з тією чи іншою ймовірністю судити про ступінь відповідності емпірично отриманих даних теоретично очікуваним.

З формальних позицій порівнюються два варіаційних ряду, дві сукупності: одна - емпіричний розподіл, інша являє собою вибірку з тими ж параметрами (n, M, S і ін.), що і емпірична, але її частотний розподіл побудовано в точній відповідності з обраним теоретичним законом (нормальним, Пуассона, біноміальним і ін.), якому імовірно підпорядковується поведінка досліджуваної випадкової величини.

У загальному вигляді формула критерію відповідності може бути записана наступним чином:

,

де a - фактична частота спостережень,

A - теоретично очікувана частота для даного класу.

Нульова гіпотеза припускає, що достовірних відмінностей між порівнюваними розподілами немає. Для оцінки суттєвості цих відмінностей слід звернутися до спеціальної таблиці критичних значень хі-квадрат (табл. 9П) І, порівнявши обчислену величину ?2 з табличній, вирішити, достовірно чи Невірогідно відхиляється емпіричне розподіл від теоретичного. Тим самим гіпотеза про відсутність цих відмінностей буде або спростована, або залишена в силі. Якщо обчислена величина ?2 дорівнює або перевищує табличну ??(?, df), Вирішують, що емпіричний розподіл від теоретичного відрізняється достовірно. Тим самим гіпотеза про відсутність цих відмінностей буде спростована. Якщо ж ?? < ??(?, df), Нульова гіпотеза залишається в силі. Зазвичай прийнято вважати допустимим рівень значущості ? = 0.05, т. К. В цьому випадку залишається тільки 5% шансів, що нульова гіпотеза правильна і, отже, є достатньо підстав (95%), щоб від неї відмовитися.

Певну проблему становить правильне визначення числа ступенів свободи (df), Для яких з таблиці беруть значення критерію. Для визначення числа ступенів свободи із загального числа класів k потрібно відняти число обмежень (т. е. число параметрів, використаних для розрахунку теоретичних частот).

Залежно від типу розподілу досліджуваної ознаки формула для розрахунку числа ступенів свободи буде змінюватися. для альтернативного розподілу (k = 2) в розрахунках бере участь тільки один параметр (обсяг вибірки), отже, число ступенів свободи становить df = k-1 = 2-1 = 1. для полиномиального розподілу формула аналогічна: df = k-1. Для перевірки відповідності варіаційного ряду розподілу Пуассона використовуються вже два параметри - обсяг вибірки і середнє значення (чисельно збігається з дисперсією); число ступенів свободи df = k-2. При перевірці відповідності емпіричного розподілу варіант нормальному або біноміальному закону число ступенів свободи береться як число фактичних класів мінус три умови побудови рядів - обсяг вибірки, середня і дисперсія, df = k-3. Відразу варто відзначити, що критерій ?? працює тільки для вибірок об'ємом не менше 25 варіант, А частоти окремих класів повинні бути не нижче 4.

Спочатку проілюструємо застосування критерію хі-квадрат на прикладі аналізу альтернативної мінливості. В одному з дослідів з вивчення спадковості у томатів було виявлено 3629 червоних і 1176 жовтих плодів. Теоретичне співвідношення частот при розщепленні ознак у другому гібридному поколінні має бути 3: 1 (75% до 25%). Виконується воно? Іншими словами, взята дана вибірка з тієї генеральної сукупності, в якій співвідношення частот 3: 1 або 0.75: 0.25?

Сформуємо таблицю (табл. 4), заповнивши значеннями емпіричних частот і результатами розрахунку теоретичних частот за формулою:

А = n • p,

де p - Теоретичні частості (частки варіант даного типу),

n - обсяг вибірки.

наприклад, A2 = n • p2 = 4805 • 0.25 = 1201.25 ? 1201.

Таблиця 4

 Значення (колір плода),xj  Фактична частота,a  Теоретіческаячастость,p  Теоретіческаячастота,А
 червоний  0.75  0.187621
 жовтий  0.25  0.5204
 сума n = ?a = 4805 n = ?A = 4805 ?? = 0.71

Далі обчислюємо хі-квадрат ?? = 0.71 і число ступенів свободи (при двох класах і одне обмеження, обсязі вибірки) df = k - 1 = 2 - 1 = 1. За табл. 9П знаходимо критичне значення ??(0.05, 1) = 3.84. Оскільки інформація, видобута величина (0.71) менше табличній (3.84), відмінності порівнюваних розподілів статистично недостовірні. Інакше кажучи, фактичні частоти добре узгоджуються з теоретично очікуваними. Отримані дані не відкидають прийняту гіпотезу про те, що в нашому випадку є співвідношення 3: 1.

Тут слід ще раз звернути увагу читачів на ту обставину, що збереження нульової гіпотези можна вважати доказом справедливості нульової гіпотези. Результатами представлених обчислень теорія про розщеплення за фенотипом у співвідношенні 3: 1 не доведена, Хоча і не спростована. Статистика доводить тільки факт відмінностей, але не їх відсутність. Щоб довести теорію, потрібно припустити анти-теорію (наприклад, співвідношення 1: 1) і спростувати її за допомогою статистичних прийомів.

В процесі іншого дослідження здобуті 671 самець і 569 самок. Потрібно визначити, чи підтверджують ці дані факт переважання самців або наявності просто випадкове відміну цифр. Теоретичне відношення ознак (співвідношення статей) 1: 1. Чи підтверджується воно? Знаходимо суму 671 + 569 = 1240, середнє 620,

Порівняння обчисленого (8.4) і критичного значення (для df = 1 і ? = 0.05 ??(0.05, 1) = 3.84) явно свідчить про суттєве відхилення фактичного співвідношення статей від гіпотези - 1: 1. Імовірність правильності нульової гіпотези (т. Е. Що в даному випадку дійсно має місце чисельна рівність статей) виявилася навіть менше 0.01. Отже, є всі підстави говорити про достовірне переважання самців.

Як перший приклад вирішимо завдання, чи відповідає закону Пуассонарозподіл числа повторних виловів альбатросів (табл. 5). В цьому випадку розглядається процес, етапами якого виступають події «вилов птиці». У низці таких подій зустрічаються рідкісні - «відлов меченной особини». Біологічна підгрунтя полягає в наступному: чи випадкові повторні вилови птахів або є фактори, відповідальні за порушення випадковості? Наприклад, птахи можуть приманювати і прагнути потрапити знову або можуть намагатися уникнути повторного вилову. В обох випадках птах «навмисне» потрапляти частіше або рідше, порушуючи випадковість повторного вилову і спотворюючи тим самим форму розподілу, яке буде відходити від форми, запропонованої законом Пуассона. Згідно нульовій гіпотезі, птиці поводяться випадково, їх зустрічальність відповідає цьому закону. Алгоритм розрахунків теоретичних частот для цього випадку простий і заснований на формулах прямого розрахунку теоретичних частот:

 (Частота нульового класу),

 (Частота інших класів),

де М - середня арифметична ряду,

x - значення ряду (число об'єктів в пробі),

Ax - теоретична частота значення x,

n - Обсяг вибірки (число проб),

e = 2.7183 ...- основа натурального логарифма.

Параметри даного варіаційного ряду були розраховані вище (с. 23): M = 0.968. Теоретична частота нульового значення дорівнює:

 = 11.93803 ? 12,

частота значення x = 1:

 = 11.55602 ? 11

і т. д. (табл. 5, графа 3).

Таблиця 5

 Число повторнихотловов,x  Фактіческаячастота,a  Теоретіческаячастота,A
     0.75
     1.45
7      
 0.17
     
 сума n = ?a = 32   n = ?A = 32    ?? = 2.31

Після закінчення обчислень отримуємо два ряди частот, відмінності між якими оцінюються за критерієм хі-квадрат.

Перед розрахунком значення критерію слід переконатися, що виконані вимоги до даних для розрахунку критерію ??:

- Обсяг вибірки більше 25 варіант, n> 25,

- Суми емпіричних і теоретичних частот дорівнюють обсягу вибірки n = ?a = ?A (З точністю не нижче 1-2%),

- Всі класи емпіричного і теоретичного рядів мають частоти більше 4, aj > 4; якщо будь-які класи мають менше 4 варіант (у нас значення 3 і 4 мають частоти 2 і 1), то вони повинні бути об'єднані (підсумовані) з сусідніми, що і показано в таблиці за допомогою фігурних дужок.

Далі обчислюємо значення критерію: для першого рядка

і т. д. (графа 4), разом ?? = 2.31.

Число ступенів свободи знаходимо як число остаточних класів (3) мінус число обмежень: df = k-2 = 3-2 = 1.

табличне значення ??(0.05,1) = 3.84. Отримана величина (2.31) менше табличній (3.84), отже, нульова гіпотеза не відкидається: емпіричне розподіл достовірно не відрізняється від розподілу Пуассона. Іншими словами, у нас немає підстав стверджувати, що ймовірність повторного вилову змінюється: не можна стверджувати, що сама операція вилову привертає або лякає птахів.

Відповідність емпіричного ряду розподілу Пуассона можна перевірити і іншим способом: порівнявши за критерієм Фішера величини середньої арифметичної і дисперсії для числа ступенів свободи df1 = n - 1, df2 = n - 1. В нашому випадку M = 0.968, S? = 1.257, F = 1.257 / 0.968 = 1.157. Оскільки ця величина менше табличній (F(0.05, 31, 31) = 1.84), порівнювані показники достовірно не відрізняються, а рівність середньої і дисперсії характерно лише для розподілу Пуассона.

При статистичному дослідженні безперервних ознак потрібно бути впевненим, що вони дійсно підкоряються нормальному закону, А в разі дискретних ознак - біноміальному. Для такої перевірки нульова гіпотеза звучить так: «отримане розподіл відповідає нормальному (біноміальному)» або «вибірка взята з генеральної сукупності, що підкоряється закону нормального (біноміального) розподілу». Всі обчислювальні операції для випадків нормального і біноміального розподілів збігаються. Розглянемо перевірку першої гіпотези.

Розрахунки починаються з побудови варіаційного ряду і пошуку центральних значень для кожного класу (табл. 6 і 7). Далі за формулою  обчислюються нормовані відхилення середини кожного класового інтервалу (xj) Від загальної середньої M (S - стандартне відхилення). У нашому випадку M = 9.29 г, S = 0.897 м, тоді, наприклад для другого інтервалу отримуємо: t = | 8.05 - 9.27 | / 0.897 = 1.38. Далі визначаємо теоретичні частості нормального розподілу, або ординати нормальної кривої (табл. 4П), Відповідні обчисленим нормованим відхиленням. для t = 1.38 знаходимо p = 0.1539 ? 0.15 (табл. 6, графа 5). (Зауважимо, що модуль у формулі нормованих відхилень береться тому, що в таблиці 6П наведені частости p тільки для позитивних значень t.) Наступна операція, обчислення теоретичних частот, ведеться за формулою:

А = з • p,

де p - Ординати нормальної кривої,

с - константа ряду, що визначається за формулою ,

dx - Класовий інтервал (в даному випадку він дорівнює 0.7) (див. С. 13),

п - обсяг вибірки (63).

Для нашого прикладу  = 49.16.

Таблиця 6

 класові інтервали  Центр інтервалу,xj  Фактична частота,a  Нормоване відхилення,t  Ординати нормальної кривої,p  Теоретична частота,А
 7 - 7.7  7.35 2  2.16  0.04  
 7.8 - 8.4  8.05  1.38  0.15  
 8.5 - 9.1  8.75  0.60  0.33  0.25
 9.2 - 9.8  9.45  0.18  0.39  0.47
 9.9 - 10.5  10.15  0.96  0.25  0.33
 10.6 - 11.2  10.85  1.74  0.09  
 11.3 - 11.9  11.55  2.52  0.02  
?   n =?a= 63     n= ?A= 63 ?? = 1.36

Теоретична частота для f = 0.15 складе:

А = 49.16 • 0.1539 = 7.55 ? 8 (графа 6).

В результаті обчислень отримуємо теоретичне нормальний розподіл з параметрами M = 9.29 г, S = 0.897 г, п = 63 (див. Рис. 4, с. 20).

Перед розрахунком критерію хі-квадрат перевіряємо збіг суми емпіричних і теоретичних частот (по 63 варіанти) і мінімальні обсяги в окремих класах. Оскільки в крайніх класах частоти були нижче 4, проводимо їх об'єднання (відзначено дужками), після чого число класів скоротилася до k = 5. Обчислюємо значення ??: для першого класу (9 - 10) ? / 10 = = 0.1, для всього ряду ?? = 1.36. Число ступенів свободи df = 5 - 3 = 2. Табличне значення (табл. 9П) ??(0.05, 2) = 5.99.

Оскільки отримане значення (1.36) менше табличного (5.99), нульова гіпотеза зберігається, розподіл бурозубок по масі тіла достовірно від нормального не відрізняється.

Аналогічні розрахунки для дискретного ознаки (плодючість лисиць), що має імовірно біноміальний розподіл(Дискретний аналог нормального), представлені в табл. 7. Так, при параметрах M = 5 прим., S = 1.33 прим. для другого інтервалу отримуємо: t = | 8 - 5 | / 1.33 = 1.5.

Таблиця 7

 Центр інтервалу,xj  Фактична частота,a  Нормірованноеотклоненіе,t  Ординати нормальної кривої,p  Теоретична частота,А
1  2.26  0.031  
 1.5  0.129  
 0.75  0.301  0.05
 0.399
 0.75  0.301  0.94
 1.5  0.129  
 2.26  0.031  
 сума n = ?a = 75     n = ?A = 75 ?? = 2

Відповідна ордината нормальної кривої дорівнює p = 0.1295 (графа 4), теоретична частота складе:

А = з • p = 56.38 • 0.129 = 7.3 ? 7 (графа 5),

оскільки значення c = 1 • 75 / 1.33 = 56.38. В результаті обчислень отримуємо частоти (A) Розподілу (з параметрами М = 5, S = 1.33, n = 75), строго відповідного біноміальному (див. Рис. 5, с. 21). Об'єднаємо класи з частотами менше 4 і розрахуємо значення критерію ?? = 2. Число ступенів свободи (при трьох обмеженнях і п'яти класах) одно df = 5 - 3 = 2. Оскільки це значення (?? = 2) менше табличного (?2(0.05, 2) = 5.99), нульова гіпотеза не може бути відхилена, значить, розподіл лисиць по плодючості в цілому відповідає біноміальному закону.




Попередня   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   Наступна

розподіл Пуассона | альтернативне розподіл | поліноміальний розподіл | Статистична оцінка генеральних параметрів | Генеральна сукупність | Оцінка відмінностей двох вибірок | Порівняння середніх арифметичних | порівняння часткою | Порівняння показників мінливості | Порівняння вибірок за допомогою непараметричних критеріїв |

загрузка...
© um.co.ua - учбові матеріали та реферати