На головну

Рівня вимірювання.

  1.  C) канал нульового рівня
  2.  CAD / CAM системи високого рівня
  3.  CAD / CAM системи нижнього рівня
  4.  CAD / CAM системи середнього рівня
  5.  II Показники РІВНЯ І ДИНАМІКИ ВИТРАТ ВИРОБНИЦТВА
  6.  Аналіз якості прибутку. Аналіз рівня і динаміки фінансових результатів за даними звітності
  7.  Аналіз організаційно-технічного рівня виробництва.

Зв'язок в табл. 2 X 2. Найпростіша задача про взаємозалежність виникає тоді, коли є дві ознаки, кожен з яких приймає два значення (табл. 13).

Уявімо дані про угруповання за цими двома ознаками так;

Для характеристики ступеня зв'язку двох ознак застосовується коефіцієнт Ф, який визначається формулою

Коефіцієнт Ф дорівнює 0, якщо немає відповідності між двома дихотомічними змінними, і дорівнює 1 або -1, коли є повна відповідність між ними. З огляду на труднощів. з інтерпретацією знака коефіцієнта для катетеризувати (поминальних) змінних часто використовують в аналізі лише абсолютну велічіну- | Ф |. Ф легко інтерпретується, оскільки показано, що він являє собою просто коефіцієнт кореляції r, якщо значення кожної дихотомічної змінної позначити 0 і 1.

Як уже зазначалося, Ф обчислюється для катетеризувати даних, що представляють природні дихотомії: стать, раса, і т. П. Приведення кількісних змінних до дихотомическому увазі пов'язано .з вибором граничної точки поділу (наприклад, чоловіки до 30 років і чоловіки старше 30 років). Штучна діхотомізація, настільки часто необхідна в конкретному дослідженні при вивченні взаємозв'язку ознак, може привести до того, що одна частина дихотомічної змінної за своїм впливом буде більш значима для однієї зв'язку, інша -для інший, а це дасть помилковий результат.

Вимірювання зв'язку в табл. з X k. Розглянемо тепер більш загальну ситуацію, коли дві змінні класифіковані па дві або більше категорії. Запишемо це таким чином:

де nij частоти; ni- Маргінальні суми частот по рядках; nj- Маргінальні суми частот по стовпчиках. На с. 169-172 для з'ясування відхилення від незалежності розподілу значень в подібному випадку використовувався критерій c2. Однак сама величина c2не дуже підходить в якості запобіжного зв'язку, оскільки сильно залежить від числа категорій.

Нормованим коефіцієнтом кореляції для таблиці c X k є коефіцієнт спряженості Пірсона (P)

коефіцієнт Р = 0 при повній незалежності ознак. Недоліком, його є залежність максимальної величини Р від розміру таблиці (максимум Р досягається при c = k, але сама межа змінюється зі зміною числа категорій). У зв'язку з цим виникають труднощі порівняння таблиць різного розміру.

Щоб виправити вказаний недолік, Чупров ввів іншу величину:

при з = kТ досягає +1 в разі повної зв'язку, проте не володіє цією властивістю при k не дорівнює с.

коефіцієнт Крамера (К) може завжди досягати +1 незалежно від виду таблиці:

Для квадратної таблиці коефіцієнти Крамера і Чупрова збігаються, а в решті випадків К > Т.

величина c2 швидко обчислюється за допомогою формули

обчислення коефіцієнтів Р, Т и К пов'язане з тими ж обмеженнями на х2, Які сформульовані на с. 172.

Наступна група коефіцієнтів зв'язку для категоризовать даних заснована на припущенні, що якщо дві змінні пов'язані, то інформація про однієї змінної може бути використана для передбачення інший. Так, якщо припустити, що зв'язок між підлогою індивіда і його ставленням до правил вуличного руху абсолютно детермінована, то згідно табл. 13 або всі чоловіки були б порушниками, а жінки немає, або навпаки. Оскільки це не так, то виникає невідповідність, або, як кажуть, помилка припущення абсолютної зв'язку (позначимо величину цієї помилки 0А).

З іншого боку, можна припустити, що дві ознаки абсолютно не пов'язані, і не можна на основі однієї змінної передбачити іншу. Оскільки це теж не так, то виникає помилка припущення про відсутність зв'язку (00).

може служити мірою відносного зменшення помилки при- використанні інформації про однієї змінної для передбачення інший.

Ознака, на основі якого передбачається інша ознака, будемо називати незалежної змінної, а що передбачається - залежною.

Тоді для випадку, коли залежна змінна розташована по рядках таблиці (т. Е. Категорії розташовані по рядках), обчислюється коефіцієнт зв'язку lг:

де max n - найбільша частота в стовпці r; max n j - найбільша маргінальна частота для рядків j.

Приклад. обчислимо До2для даних табл. 13 в припущенні, що K1 незалежна змінна, а ставлення до правил вуличного руху - залежна

Таким чином, використання інформації про поле обстежених для передбачення ставлення до правил руху не зменшує відносної помилки.

Якщо залежна змінна - це категорії стовпців таблиці, то абсолютно аналогічно попередньому обчислюється

де mах nij - Найбільша частота в рядку; max ni- найбільша

маргінальна частота для стовпців i.

Для нашого прикладу, коли пів залежна змінна, l = 0,4, т. Е. Отримуємо 40% -пое зменшення в помилку, якщо використовуємо ставлення до правил як пророкує стать порушника.

Коефіцієнти А і К мають межі зміни від 0 до 1. Чим ближче Кг або Кс до 1, тим більше відносне зменшення у помилку і більшу відповідність (зв'язок) між змінними. Ці коефіцієнти можуть бути використані для таблиць будь-якого розміру.

У ряді випадків зручно використовувати симетричну l:

Різноманітність кореляційних коефіцієнтів продиктовано прагненням відобразити реально існуючі відмінності типів зв'язків в природі і суспільстві. Тому дана обставина слід розглядати швидше як свідчення переваг статистичного апарату, які полягають в гнучкості і великий пристосованості його до аналізу найскладніших взаємозв'язків в соціальній сфері. Кожен кореляційний коефіцієнт пристосований дли вимірювання цілком певного виду зв'язку. Техніка розрахунку і конструкція формули одного і того ж коефіцієнта можуть змінитися в залежності від того, які (наприклад, згруповані або не згруповані) дані доводиться аналізувати. Порівняйте, наприклад, різні варіанти формул для парного коефіцієнта кореляції r. Таким чином, застосування того чи іншого показника визначається природою даних і формою їх подання. Необхідна ступінь точності також може істотно вплинути на вибір способу розрахунку зв'язку в кожному конкретному випадку. Зазвичай оцінка придатності тієї чи іншої формули проводиться з урахуванням наступних факторів:

1) природи даних (якісні або кількісні ознаки);

2) форми і типи залежності (лінійна або нелінійна, позитивна чи негативна зв'язок);

3) необхідної точності розрахунків (наприклад, коефіцієнти кореляції рангів rи t іноді можуть використовуватися замість більш точних заходів rи t2);

4) зручності при обчисленні і порівняльної простоти інтерпретації;

5) труднощів технічного порядку (чи є рахункова техніка або потрібно вести розрахунки вручну);

6) поширеності використання того чи іншого коефіцієнта кореляції;

7) можливості порівняння різних коефіцієнтів.

Зазвичай вважають за краще використовувати найбільш поширені в практиці соціологічних досліджень коефіцієнти, так як тим самим досягається можливість порівняння отриманих результатів з матеріалами інших досліджень.

 



 Рівня вимірювання. |  Нові підходи до аналізу даних, виміряних по порядковим і номінальним шкалами

 Статистичні таблиці. |  Гістограма. |  Полігон розподілу. |  Кумулята. |  Теоретичне розподіл. |  Середнє значення ознаки. |  Показники коливання (варіації) значень ознак. |  Нормальний розподіл. Статистичні гіпотези |  Статистичні гіпотези. |  Статистичні взаємозв'язку і їх аналіз |

© um.co.ua - учбові матеріали та реферати