На головну

Двовимірний статистичний аналіз даних

  1. HANSEI REPORT (АНАЛІЗ)
  2. I Реалізація простих і складних запитів до бази даних
  3. I. Аналіз завдання
  4. I. Аналіз інженерно-геологічних умов території, оцінка перспективності її забудови
  5. I. Аналіз інженерно-геологічних умов території, оцінка перспективності її забудови
  6. I. Завдання на аналіз тексту нормативного акта
  7. I. Основні лінії зв'язку педагогіки з соціологією. Мікро- та макроанализ 1 сторінка

Тепер ми можемо перейти до складнішого виду аналізу, яким є двовимірний аналіз. тут розглядається зв'язок між двома змінними. Ми маємо пари спостережень, отримані на одному об'єкті. Нас цікавить, як один досліджуваний ознака пов'язаний з іншим. Дані наведені в таблиці.

Таблиця 12

Взаємозв'язок між рівнем освіти і заняттями фізкультурою

   Рівень освіти  всього
 низький  високий
 роблять зарядку
 Чи не роблять зарядку
 всього

У таблиці 12 два стовпці - для освіти і два рядки - для занять фізкультурою, отже, розмірність цієї таблиці 2 ? 2. Крім того, є додаткові крайній стовпець і крайня рядок (маргінали таблиці), що вказують загальна кількість спостережень в цьому рядку або в стовпці. У правому нижньому кутку вказана загальна сума, т. Е. Загальне число спостережень в вибірці. Чи не дали відповіді, вже виключені (для реальних даних їх число також варто вказати, але не в таблиці, а в подтаблічной
виносці).

Багато дослідників при побудові таких таблиць користуються неписаним правилом: для тієї змінної, яку вважають незалежною, відводиться верхній рядок (горизонталь), а залежну розташовують «збоку», по вертикалі (зрозуміло, дотримання цього правила не є обов'язковим і нічого з точки зору аналізу не змінює).

Зазвичай характер взаємин між змінними в невеликій таблиці можна визначити навіть «на око», порівнюючи числа в стовпцях або рядках. Ще легше це зробити, якщо замість абсолютних значень стоять відсотки. Щоб перевести абсолютні частоти, зазначені в клітинах таблиці, в відсотки, потрібно розділити їх на маргінальні частоти і помножити на 100. Якщо ділити на маргінал стовпчика, ми отримаємо відсоток по стовпцю.

Наприклад, 50/255 ? 100 = 19,6%, тобто. Е. 19,6%, що мають низький рівень освіти роблять зарядку (але не навпаки!). Якщо ділити на маргінал рядки, то ми отримаємо іншу величину - відсоток по рядку. Зокрема, можна помітити, що 80% тих, хто чинить зарядку, складають люди з високим рівнем освіти (200/250 ? 100). Розподіл на загальну чисельність вибірки дає загальний відсоток. Так, всього в вибірці 50% людей, які роблять зарядку.

Так як висновок про наявність взаємозв'язку між змінними вимагає демонстрації відмінностей між підгрупами за рівнем залежною змінною, при аналізі таблиці спряженості можна керуватися простими правилами.

1) Потрібно визначити незалежну змінну і, відповідно до прийнятого визначенням, перерахувати абсолютні частоти в відсотки. Якщо незалежна змінна розташована по горизонталі таблиці, ми вважаємо відсотки по стовпцю; якщо незалежна змінна розташована по вертикалі, відсотки беруться від сум по рядку.

2) Далі порівнюються процентні показники, отримані для підгруп з різним рівнем незалежної змінної, кожен раз всередині однієї категорії залежною змінною (наприклад, всередині категорії роблять зарядку). Виявлені відмінності свідчать про існування взаємозв'язку між двома змінними.

Елементарна таблиця спряженості розмірності 2 ? 2 - це мінімально необхідна умова для висновку про наявність взаємозв'язку двох змінних.

Знання про розподіл залежною змінною недостатньо. Не можна, наприклад, стверджувати, ніби з того, що 75% дітей-первістків мають інтелект вище середнього, а 25% - середній і нижчий, слід залежність між порядком народження і інтелектом. Необхідно проаналізувати і розподіл показників інтелекту для дітей-непервенцев. Варіювати повинна не тільки залежна, а й незалежна змінна.

4) Будується діаграма розподілу. Це дозволяє наочно уявити зв'язку між ознаками. Приклад наведено на рис. 4.

Мал. 4. Взаємозв'язок між рівнем освіти і заняттями фізкультурою
за даними таблиці 12

Між двома змінними можуть існувати різні залежності: лінійні і нелінійні.

між змінними Х и Y існує лінійне відношення: якщо одна змінна зростає за величиною, то це ж відбувається і з іншого. Очевидно, що чим більше компактно, «скупчено» розташовуються точки-спостереження навколо пунктирною прямий лінії (яка описує ідеальне лінійне відношення Х і Y), Тим сильніше залежність.

Існує узагальнений показник, що дозволяє оцінити, наскільки зв'язок між змінними наближається до лінійного відношенню, яке на діаграмі розсіювання виглядає як пряма лінія. це коеффіціенткорреляціі, Що вимірює тісноту зв'язку між змінними, т. Е. Їх тенденцію змінюватися разом. Саме слово «кореляція» означає «взаємозв'язок». Як можуть бути пов'язані між собою дві змінні?

1) Великим значенням однієї ознаки відповідають більш високі значення іншого, і навпаки. Це позитивний зв'язок.

2) Збільшення першої ознаки супроводжується зменшенням другого, а зменшення першого - збільшенням другого. Це негативна взаємозв'язок.

3) повна відсутність взаємозв'язку.

Коефіцієнт кореляції відображає всю гаму можливих відносин. Його значення може варіюватися від +1 до -1. Позитивні значення вказують на прямий зв'язок між змінними, негативні - на зворотну. Нуль відповідає випадку відсутності кореляції. Коефіцієнт кореляції по-різному обчислюється для виміряних показників (зріст, вага) і для ранжируваних даних (оцінки, переваги), але його остаточна форма і інтерпретація залишаються тими ж. Якщо дані носять якісний характер (чоловік - жінка, повнолітній - неповнолітній, який працює - непрацюючий), то замість коефіцієнта кореляції застосовуються інші заходи зв'язку, засновані на порівнянні частот. Для тих випадків, коли два ряди отримані за допомогою різних шкал, є свої обчислювальні процедури. Але загальна логіка аналізу зберігається. У спеціальній літературі можна ознайомитися з правилами розрахунку коефіцієнтів кореляції в залежності від типу шкали.

Наведемо також графічне зображення можливих варіантів взаємозв'язку між змінними.

На малюнку 5 наведено три діаграми розсіювання.

а Б В)

Мал. 5. Діаграми розсіювання для гіпотетичних даних


Очевидно, що на малюнку 5, а будь-який зв'язок між x і y просто відсутня. На малюнку 5, б уявна пряма лінія (відзначена пунктиром) перетнула б діаграму зверху вниз, з лівого верхнього в правий нижній кут. Іншими словами, лінійна зв'язок в цьому випадку має зворотній напрямок: чим більше X, тим менше залежна змінна У.

Зауважимо також, що «кучність» розташування точок вздовж уявної прямої на малюнку 5, б не дуже велика, а значить і зв'язок (кореляція) між змінними не тільки зворотна, негативна, але ще й не дуже сильна, помірна.

Нарешті, на малюнку 5, в залежну і незалежну змінну пов'язує явно нелінійний відношення: уявний графік анітрохи не схожий на пряму лінію і нагадує скоріше параболу.

Методи аналізу, про які зараз піде мова, не годяться для цього нелінійного випадку, так як звичайна формула для підрахунку коефіцієнта кореляції дасть нульове значення, хоча зв'язок між змінними існує.




Основні правила формулювання питань | макет анкети | пілотаж інструментарію | Організаційна частина програми | процедура анкетування | Контроль якості, вибракування анкет і кодування інформації | Точність заповнення анкети | кодування анкет | Введення інформації в комп'ютерну програму | Аналіз даних дослідження |

© um.co.ua - учбові матеріали та реферати