загрузка...
загрузка...
На головну

Генеральна сукупність

  1. База даних «Генеральна сукупність об'єктів статистичного спостереження» на основі ЕГРПО
  2. Генеральна і вибіркова сукупності. види вибірки
  3. Глава 37. Егрегори - сукупні мислеформи, визначення і сенс. Вплив на еволюцію свідомості. Егрегор Диявола - сукупність людського зла і помилок
  4. Комерційне право - це сукупність загальних і спеціальних правових норм, що регулюють відносини по здійсненню комерційної діяльності.
  5. ОСОБИСТІСТЬ ЛЮДИНИ, ЯК СУКУПНІСТЬ ПОВЕДІНКОВИХ РЕАКЦИЙ
  6. Менеджмент (управління) як сукупність професійно підготовлених фахівців

Генеральна сукупність - всі варіанти одного типу. У предметної біології це поняття можна інтерпретувати як мислиме безліч варіант, сформованих при однакових (зовнішніх і внутрішніх) умовах.

Теоретична нескінченність генеральної сукупності означає, що її ніколи не можна пізнати до кінця, в дійсності ми завжди маємо справу з вибірками. вибіркова сукупність, вибірка - це безліч варіант одного типу, обмежене способом відбору (Методами отримання варіант) з генеральної сукупності. Відмінність вибірок від генеральної сукупності полягає в тому, що діючі в генеральної сукупності чинники не можуть проявитися повною мірою в будь-який окремої вибірці. Кожна нова вибірка обов'язково буде відрізнятися від попередньої в силу випадковості, Варіанти нової вибірки будуть нести однаковий відбиток дії домінуючих чинників, але різні сліди дії випадкових чинників. З цієї причини параметри (середня M і стандартне відхилення S) Різних вибірок з однієї генеральної сукупності ніколи не співпадуть ні один з одним, ні зі значеннями генеральних параметрів (зазвичай позначаються буквами ?, ?), вони будуть трохи відрізнятися, зміщуючись відносно один одного і варіюючи навколо генеральних значень.

Відмінність генеральних параметрів від їх оцінок за вибірками полягає ще й в тому, що в першому випадку вони розраховані по всіх варіантах, а в другому - по обмеженому їх числа. Інтуїтивно зрозуміло, що, чим менше обсяг вибірок, тим менш точним будуть вибіркові оцінки генеральних параметрів і, навпаки, чим більше вибірка, тим ближче вибіркові середні і дисперсії лежать до генеральних значень. Це явище називається закон великих чисел - з ростом числа спостережень значення вибіркових параметрів прагнуть відтворити генеральні.

Помилка репрезентативності вибіркових параметрів

По частині ніколи не вдається повністю охарактеризувати ціле, завжди залишається ймовірність того, що вибіркова оцінка недостатня близька до значення параметра генеральної сукупності, має деяку помилку. Відмінності значень вибіркових параметрів від генеральних називаються помилкою репрезентативності даного параметра, Або просто (статистичної) помилкою. При збільшенні обсягу вибірки помилки репрезентативності прагнуть до нуля (наслідок закону великих чисел). Чисельно виражені статистичні помилки служать мірою тих меж, в яких вибіркові параметри можуть відхилятися від значень генеральних параметрів. Наприклад, якщо для кількох вибірок, отриманих з однієї і тієї ж генеральної сукупності, порахувати середні, а потім оцінити мінливість цих середніх, то стандартне відхилення середніх (SM) І буде чисельної мірою помилки репрезентативності вибіркової середньої. Вона позначається літерою m.

Величина помилки тим більше, чим більше варіювання ознаки (S) І чим менше вибірка (n). Помилку репрезентативності мають всі статистичні параметри, розраховані за вибіркою. Для практики статистичного оцінювання розроблено спеціальні формули. Для нормального розподілу вони мають такий вигляд. Помилка середньої: ,

помилка стандартного відхилення: ,

помилка коефіцієнта варіації: .

Попередньо обчислені значення помилок підставляють до відповідних параметрів зі знаками плюс-мінус (параметр ± помилка) і в такій формі представляють в наукових звітах і публікаціях. У прикладі з Бурозубки для різних параметрів маємо:

 , M = 9.3 ± 0.11 г,

 , S = 0.89 ± 0.079 г,

 , CV = 9.6 ± 0.9%.

Не слід плутати статистичну помилку з методичними помилками і помилками точності (точності вимірювань, аналізів, підрахунків і т. Д.), Хоча методичні похибки і збільшують помилку репрезентативності, але іншим шляхом - методичні огріхи збільшують мінливість ознаки, стандартне відхилення.

При всій неминучості статистичної помилки вона може бути зведена до мінімуму відбором достатнього числа особин (варіант). З ростом обсягу вибірки оцінки параметрів стабілізуються, а їх помилки репрезентативності зменшуються.

Довірчий інтервал

 Параметри генеральної сукупності практично завжди залишаються невідомими, про них судять за вибірковими оцінками, використовуючи для цього значення помилок репрезентативності. Теоретичні дослідження поведінки вибіркових середніх (як випадкових величин) показали, що вони підкоряються нормальному закону, більшість з них (95%) знаходиться поблизу від генеральної середньої - в діапа-зоні Mген. ± 1.96m (Приблизно ± 2m). Ця обставина позво-ляет робити зворотне висновок - генеральна середня знаходиться в діапазоні Mвибір. ± 1.96m, Т. Е. Передбачати ширину інтервалу, в якому укладено генеральний параметр, давати интервальную оцінку генеральному параметру.

Відповідно до закону нормального розподілу можна очікувати, що генеральний параметр (справжнє значення) виявиться в інтервалі

від М ? tm до М + tm,

де m - Помилка середньої арифметичної,

t - Квантиль розподілу Стьюдента (табл. 6П) При даному числі ступенів свободи (df) І рівні значущості (зазвичай ? = 0.05).

Сказане можна перефразувати так: з ймовірністю P можна очікувати, що генеральна середня знаходиться в довірчому інтервалі М ± tm, Побудованому навколо вибіркової середньої арифметичної M.

Довірчий інтервал - інтервал значень досліджуваного ознаки, в якому з тією чи іншою ймовірністю P знаходиться значення генерального параметра.

Повертаючись до прикладу про вазі землерийок-бурозубок, ми тепер можемо записати довірчі інтервали при різних рівнях ймовірності (граничні значення t взяті для випадку n = ?):

для Р = 0.95 М ± tт = 9.3 ± 1.96 • 0.11 = 9.3 ± 0.21 г;

для Р = 0.99 М ± tт = 9.3 ± 2.58 • 0.11 = 9.3 ± 0.28 м

Тут шукана генеральна середня величина ваги землерийок з ймовірністю P = 95% знаходиться в межах 9.11-9.53 г, а при P = 99% - 9.04-9.6 м

Якщо обсяг вибірки, для якої були отримані параметри і помилка репрезентативності m, Був невеликий (n <50), то необхідно вводити поправки на обсяг вибірки, розширюючи область можливого перебування генерального параметра. Це зрозуміло, оскільки при дефіциті інформації будь-які висновки не можуть бути дуже точними. Так, для вибірки обсягом n = 20 прим. помилка середньої складе г, а довірчий інтервал: М ± tт = 9.3 ± 2.09 • 0.2 = 9.3 ± 0.41 г - від 8.9 до 9.7 г (при рівні значущості ? = 0.05 і числі ступенів свободи df = n - 1 = 20 - 1 = 19 табличная величина статистики Стьюдента дорівнює t = 2.09).

Аналогічним чином можна побудувати довірчий інтервал для стандартного відхилення (S ± tmS), Коефіцієнта варіації (CV ± tmCV), А також інших статистичних параметрів (коефіцієнтів асиметрії, ексцесу, регресії, кореляції).

Визначення точності досвіду

У практиці біометричного аналізу використовується відносна помилка вимірювань - «показник точності досвіду» - відношення помилки середньої до самої середньої арифметичної, виражене у відсотках:  . Чим точніше визначена середня, тим менше буде ?, і навпаки. Точність вважається хорошою, якщо ? менше 3%, і задовільною при 3 < ? < 5%. Інакше доводиться збирати додатковий матеріал. У прикладі показник точності склав ? = (0.11 / 9.3) • 100 = 1.2%, що говорить про достатню надійність вибіркової оцінки.

Оптимальний обсяг вибірки

У біологічних дослідженнях часто заздалегідь потрібно встановити число спостережень, достатню для отримання репрезентативних оцінок генеральної сукупності.

Для безперервних ознак метод полягає в тому, щоб, використовуючи відомі співвідношення між середньою, стандартним відхиленням, помилкою середньої, щільністю ймовірності розподілу Стьюдента, знайти число ступенів свободи, відповідне довірчого інтервалу для середньої при рівні значущості ? = 0.05. Обсяг вибірки, достатньої для отримання результату заданої точності, знаходять за формулою:

,

де п - обсяг вибірки,

t - граничне значення з таблиці розподілу Стьюдента (табл. 6П), Що відповідає прийнятому рівню значущості при планованому обсязі вибірки,

CV - Приблизне значення коефіцієнта варіації (%),

? - Планована точність оцінки (похибки) (%).

Розрахуємо необхідний обсяг умовної вибірки, що забезпечує високу точність ? = 3%, для рівня значущості ? = 0.05 (t = 1.98, для df ? 100) і для коефіцієнта варіації CV = 12% (така відносна мінливість багатьох розмірно-вагових ознак тварин):

 ? 63 екз.

Якщо досліджується фенотипическое (видове) різноманітність (дискретний ознака), може виникнути завдання визначення мінімального обсягу вибірки, в якій буде присутній хоча б один екземпляр з певним фенотипом (Животовський, 1991). З позицій теорії ймовірності завдання ставиться так: визначити обсяг вибірки, в якій з ймовірністю P можна очікувати присутність особи з ознакою, частота якого в генеральної сукупності становить ?. Пропонується наступна формула:

.

У першому наближенні значення ? можна визначити приблизно за наявними даними. Що ж стосується ймовірності P, То її рівень досить сильно впливає на величину необхідного обсягу вибірки. Для більшої надійності слід брати P = 0.99, але тоді зросте обсяг робіт; не настільки високі вимоги (P = 0.95) можуть і не дозволити знайти шуканий фенотип. Зокрема, при рівні ймовірності P = 0.95 і ймовірної частоті фенотипу в популяції ? = 0.05 буде потрібно

 = 58.4 ? 59 екз.,

щоб відловити хоча б одну особину з цим дискретним ознакою.


оцінка приналежності варіанти до вибірці

Іноді трапляється ситуація, коли одна з отриманих варіант сильно відрізняється від інших. Чи можна такі різко виділяються значення використовувати при подальших розрахунках? У термінах математичної статистики поставлене запитання звучить так: чи стосується дана варіанта разом з іншими варіантами досліджуваної вибірки до однієї і тієї ж генеральної сукупності або - до різним? Його можна сформулювати і по-іншому: сформовано дане значення варіанти під дією тих же домінуючих і випадкових факторів, що і всі інші варіанти даної вибірки, або це були інші чинники? Тут можливі дві відповіді.

1. Фактори ті ж, т. Е. Все варіанти взяті з однієї і тієї ж генеральної сукупності.

2. Фактори інші, т. Е. Особлива варіанти і вибірка порізно взяті з різних генеральних сукупностей.

Відповідь на це питання можна отримати з використанням розглянутих вище властивостей нормального розподілу. Так, якщо всі варіанти були взяті з однієї генеральної сукупності, значить, вони повинні відрізнятися один від одного тільки в силу випадкових причин і (з ймовірністю P = 0.95) перебувати в діапазоні M ± 2 • S. Іншими словами, по випадковим причин варіанти досить великий вибірки будуть відхилятися вліво або вправо від середньої арифметичної не більше ніж на 2 • S: x?M <2 • S або (x?M) /S <2.

Ця величина, нормоване відхилення, І служить безрозмірною характеристикою відхилення окремої варіанти від середньої арифметичної:

~ tтабл.,

де t - Критерій випаду (виключення),

x - Виділяється значення ознаки,

М - Середня величина для групи варіант,

tтабл. - Стандартні значення критерію випадів, які визначаються властивостями нормального розподілу, їх можна знайти по табл. 5П для трьох рівнів ймовірності (для великих вибірок зазвичай користуються значенням tтабл. = 2 при P = 0.95, або ? = 0.05).

Для варіант, що належать досліджуваної досить великій вибірці, нормоване відхилення менше двох (з ймовірністю P = 0.95): t <2. У разі дії на варіанту якогось незвичайного фактора, вона виявиться за межами зазначеного діапазону M ± 2S, і її нормоване відхилення дорівнюватиме або більше двох: t ? 2.

Нормоване відхилення є найпростіший статистичний критерій, Який допомагає визначати так звані «вискакують» варіанти і вирішувати питання про можливість їх відкидання як артефактів (виключати з подальшої обробки). Після такої «чистки» параметри вибірки повинні бути розраховані заново. До оцінки чужорідність варіант, як і до інших методів статистики, не можна підходити формально; мета біометричного дослідження завжди полягає в тому, щоб зрозуміти специфіку явища. Зокрема, «відскакує» варіанту може бути наслідком того, що ознака має інше, НЕ-нормальний розподіл.

Розглянемо роботу критерію на прикладі. При вимірюванні довжини черепа дорослих самців звичайної землерийки-бурозубки отримані вибірки з такими параметрами: М = 18.8, S = 0.3 мм. Загальна кількість тварин n = 85. Серед інших варіант два великих значення (19.2 і 21.0) викликали сумніви. Визначимо для них критерії випаду:

, .

Згідно таблиці 5П, Критичне значення нормованого відхилення для рівня значущості ? = 0.05 і n = 85 одно t = 2.0. Оскільки перше отримане значення (1.3) менше табличного (2), перший з сумнівних результатів виключати не слід, а другий повинен бути відкинутий - критерій випаду (7.3) перевищує табличне значення (2).

Поняття нормованого відхилення дозволяє ввести найважливіше поняття статистики. Статистика - безрозмірна випадкова величина, яка має відомий закон розподілу і використовується в якості критерію для перевірки статистичних гіпотез.

У цьому сенсі нормоване відхилення є статистика. По-перше, це безрозмірна величина, оскільки одиниці виміру чисельника (xi?M) І знаменника (S) Взаємно знищуються. По-друге, нормоване відхилення має цілком певний розподіл (в разі безперервних ознак - нормальне) зі своїми параметрами (рис. 9). Його середня дорівнює нулю Mt = tM = (M - M) / S = 0, а стандартне відхилення дорівнює одиниці St = tS = (S ? M) / S = (S - 0) / S = S / S = 1.

 
 


Мал. 9. Перехід від реального ознаки x до нормованого відхилення t

Нормоване відхилення - універсальна величина. Який би ознака (має нормальний розподіл) ми не брали, його значення можна виразити у вигляді відстані від центру в одиницях стандартного відхилення, т. Е. На скільки S дане значення x відхилилося від M. При цьому, як випливає з властивостей нормального розподілу, крайні значення в 95% випадків не братимуть значення менше 2 і більше 2.

За допомогою нормованого відхилення можна, наприклад, оцінювати відмінності різноякісних об'єктів (порід і сортів, видів, популяцій, генерацій і ін.), Причому навіть за різними ознаками.

Нормоване відхилення можна використовувати і для порівняльної оцінки різних індивідів по одному і тому ж ознакою. Наприклад, якщо зіставляються за відносним вазі серця молода і доросла землерийки-бурозубки демонструють однакові показники (10.5 мг%), то це, тим не менш, не означає їх подібності по досліджуваному ознакою. Використовуючи відому інформацію (у молодих середній індекс серця дорівнює M = 10.0 при стандартному відхиленні S = 1.3, у дорослих - M = 11.8, S = 1.1), розрахуємо нормоване відхилення для молодого звіра  і для дорослого  . У наявності істотна відмінність: доросла особина має відносно низький показник серцевого індексу, а молодий близький за цією ознакою до видовий нормі.

Найбільший розвиток такий підхід отримує в процедурах обробки багатовимірних даних, при дослідженні об'єктів, охарактеризованих за багатьма ознаками, методом кореляцій, головних компонент, при їх кластеризації і т. П. У багатьох випадках обробка багатовимірного масиву починається з нормування даних за формулою нормованого відхилення.




Попередня   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   Наступна

варіювання | Побудова варіаційного ряду | Середня арифметична | Стандартне відхилення | Основні типи розподілів ознак | Нормальний розподіл | Біноміальний розподіл | розподіл Пуассона | альтернативне розподіл | поліноміальний розподіл |

загрузка...
© um.co.ua - учбові матеріали та реферати