На головну

Опис модуля Discriminant Analysis

  1.  C.1.3. опис розсилок
  2.  IV. Опис ціннісних орієнтирів змісту навчального предмета
  3.  METHODS OF ANALYSIS
  4.  Smith М. L. & Glass G. V. (1977). Meta-analysis of psychotherapy outcome studies. American Psychologist, 32, 752-760.
  5.  VII. Правопис ні і ні
  6.  амплітудна модуляція
  7.  Амплітудна модуляція.

Можливості модуля і основні принципи роботи з ним продемонструємо на класичному прикладі аналізу квітів ірису. Завдання полягає в тому, щоб за результатами вимірювання довжини і ширини чашолистків і пелюсток квітки віднести ірис до одного з трьох типів: SETOSA, VERSICOL, VIRGINIC.

Для запуску модуля в верхньому меню File (Файл) треба вибрати команду Open (Відкрити) і відкрити файл даних Irisdat з бібліотеки Examples / Datasets / Irisdat.sta.

В меню Statistics необхідно клацнути по Multivariate Exploratory Techniques (Багатовимірні дослідні методи) і вибрати команду Discriminant Analysis (Дискримінантний аналіз). Відкриється стартова панель модуля (рис. 1).

Щоб вибрати змінні для аналізу, потрібно натиснути кнопку Variables. З'явиться вікно, в якому необхідно вибрати группирующие і незалежні змінні. В якості Grouping variable (Групуючій змінної) виберіть змінну IRISTYPE (сорт ірису). Групує змінна не повинна входити в список незалежних змінних.

Мал. 1

В якості Independent variable list (Список незалежних змінних) виберіть змінні SEPALLEN (довжина чашолистка), SEPALWID (ширина чашолистка), PETALLEN (довжина маточки), PETALWID (ширина маточки) і клацніть по ОК (рис. 2).

Мал. 2

Далі треба поставити коди для значень групуючій змінної. Натисніть кнопку Codes for grouping variables (Рис.3).

Мал. 3

Відкриється вікно, де можна поставити коди для назви груп, до яких належить об'єкт (рис.4).

Як кодів группирующих змінних виберіть типи квітів за допомогою натискання кнопки All. Клацніть ОК.

Мал. 4

Якщо в діалозі Discriminant Function Analysis була встановлена ??галочка на опції Advansed options (Див. Рис. 3), відкриється вікно діалогу Model Definition (Рис.5). Перейдіть на вкладку Advansed. В полі Method можна вказати метод дискримінантного аналізу:

· Standart (Стандарт). При цьому методі всі вибрані змінні будуть одночасно включені в модель (рівняння);

· Forward stepwise (Покроковий вперед). Програма на послідовних кроках включає змінні в модель;

· Backward stepwise (Покроковий назад). Програма включає в модель всі вибрані змінні і потім видаляє на кожному кроці змінні з моделі.

рис.5

опція Tolerance (Толерантність) задає нижню межу толерантності. Толерантність, як уже зазначалося, є, є мірою надмірності змінних. Чим менше значення толерантності, тим надлишкову зміну в моделі, так як змінна несе малу додаткову інформацію. Змінні з толерантністю менше заданого значення в модель не включаються.

Можна виділити наступні опції діалогу Stepwise optionsдля методів покрокового аналізу (Forward stepwise, Backward stepwise) (Рис. 6).

F to enter (F-увімкнути), F to remove (F-Виключити). У покроковому аналізі дискримінантної функції змінні включають в модель, якщо відповідні їм значення F більше, ніж значення F- Включити, змінні видаляють з моделі, якщо відповідні їм значення F менше, ніж значення F-Виключити. Зауважимо, що значення F-включіть завжди має бути більше ніж значення F-Виключити. Якщо при проведенні покрокового аналізу з включенням необхідно включити всі змінні, треба встановити в поле F to enterзначення, рівне малому числу (наприклад, 00001), а в поле F to remove -значення 0.

Мал. 6

Якщо при проведенні покрокового аналізу з виключенням необхідно виключити всі змінні з моделі, треба встановити в поле F to enter значення, рівне дуже великому числу (наприклад, 999), а в поле E to remove - менше значення того ж порядку (наприклад, 998).

Number of steps (Число кроків) визначає максимальну кількість кроків, яке буде здійснено. Ця опція має пріоритет перед значеннями F to enter, F to remove. Покроковий метод буде зупинений при досягненні максимального числа кроків, незважаючи на те, чи слід вносити або виключати змінні на основі значень F.

Dysplay results (Висновок результатів). Якщо в пропонованому програмою списку вибрати Summary only (тільки підсумок), то програма виконає всі кроки покрокового аналізу і тільки потім з'явиться вікно результатів. При виборі At each step (На кожному кроці) програма буде виводити результати аналізу на кожному кроці.

У діалозі Model Definitionвиберіть метод Standard керування у OK,відкриється вікно результатів рис.7.

Інформаційна частина вікна повідомляє, що:

· Number of variables in model (Що змінних в моделі) дорівнює 4;

· Wilks 'Lambda (Значення лямбда Уїлкса) одно 0,0234386;

· Approx.F(8,288) (наближене значення F-статистики з числом ступенів свободи 8 і 288) одно 199,1454;

· p (Рівень значущості F-критерію) менше 0,0000.

рис.7

Статистика лямбда Уїлкса обчислюється як відношення детермінанта матриці внутрішньогрупових дисперсій / ковариаций до детерминанту загальної ковариационной матриці. Значення належать інтервалу (0,1). Значення лямбда, що лежать близько 0, свідчать про гарну дискримінації. Значення лямбда, що лежить близько 1, свідчать про поганий дискримінації.

Натисніть кнопку Summary: Variables in the model (Підсумки: змінні, включені в модель). З'явиться підсумкова таблиця аналізу даних.

рис.8

У першому стовпчику таблиці наведені значення Wilks 'Lambda, Що є результатом виключення відповідної змінної з моделі. Чим більше значення лямбда, тим більше бажана присутність цієї змінної в процедурі дискримінації.

значення Partial Lambda (Приватна лямбда) є ставлення лямбда Уїлкса після додавання відповідної змінної до лямбда Уїлкса до додавання цієї змінної. Приватна лямбда характеризує одиничний внесок відповідної змінної в розділову силу моделі.

Чим менше статистика Partial Lambda, Тим більший внесок в загальну дискримінацію. З таблиці видно, що змінна PETALLEN дає вклад є більшим за всіх, змінна PETALWID - друга за значенням внеску, змінна SEPALWID- третя за значенням внеску, а змінна SEPALLEN вносить в загальну дискримінацію внесок менше всіх. Тому на цій стадії дослідження можна зробити висновок, що розміри маточки є головними змінними, які дозволяють виробляти дискримінацію між різними типами ірисів.

F-remove (F-Виключити) - це значення Fкритерію, пов'язані з відповідною приватної лямбда Уїлкса. значення p-level- Це рівні значущості критеріїв F-remove.

толерантність (Toler) визначається як 1-R2, де R2 - Це коефіцієнт множинної кореляції даної змінної з усіма іншими змінними в моделі. Як уже зазначалося, толерантність є мірою надмірності змінної в моделі.

кнопка Distances between groups(Відстань між групами) меню Advanced призначена для введення таблиці з відстанями між групами. За даними цієї таблиці можна судити про якість дискримінації спостережень і про ступінь відмінності (неоднорідності) груп.

Для отримання подальших результатів про природу дискримінації слід провести канонічний аналіз. Щоб побачити, як чотири змінні поділяють різні сукупності (типи ірисів), треба обчислити дискримінантному функцію. Кожна наступна дискримінантний функція буде вносити все менший і менший внесок в загальну дискримінацію. Максимальне число оцінюваних функція дорівнює числу змінних (4) або числу груп (3) мінус один, в залежності від того, яке число менше. У нашому випадку оцінюються дві дискримінантні функції.

Клацніть по кнопці Perform canonical analysis(Виконання канонічного аналізу), програма обчислить незалежні (ортогональні) дискримінантні функції рис.9.

рис.9

У вікні Canonical Analysisнатисніть кнопку Summary рис.10.

рис.10

З'явиться таблиця результатів з покрокових критерієм для канонічних коренів - дискримінантних функцій: Chi-Square Tests with Successive Roots(Підсумки х2критерій послідовності коренів) рис.11.

рис.11

Перший рядок показує критерій значущості для всіх коренів. Повторюючи рядок містить значимість коренів, що залишилися після видалення першого кореня і т. Д. Таким чином, таблиця дозволить оцінити, скільки значущих коренів потрібно інтерпретувати. Як видно з таблиці, обидві дискримінантні функції статистично значущі.

Натисніть в лівому нижньому кутку екрану Canonical Analysis: Irisdatі перейдіть до попереднього меню див. рис.10. Потім натисніть меню Advancedрис.11.

рис.11

Якщо натиснути кнопку Coefficients for canonical variables(Коефіцієнти канонічних змінних), з'являться дві таблиці з коефіцієнтами дискримінантних (канонічних) функцій. У першій таблиці (рис. 12) дані вихідні (не стандартизовані) коефіцієнти дискримінантних функцій. Ці коефіцієнти можуть бути використані для обчислення значень канонічних змінних для кожного спостереження кожної дискримінантної функції.

Мал. 12

У другій таблиці (рис. 13) наведені стандартизовані коефіцієнти дискримінантних функцій.

рис.13

Ці коефіцієнти, засновані на стандартизованих змінних, належать одній і тій же шкалі вимірювань (абсолютної), тому їх можна порівнювати, щоб визначити величини і напрямки вкладів змінних в кожну канонічну функцію. З таблиці видно, що найбільший внесок дискримінантної функції 1 вносять змінні: PETALLEN, PETALWID, в дискримінантному функцію 2 - SEPALWID і PETALWID. У таблицях наведені власні значення для кожної дискримінантної функції і кумулятивна частка пояснений дисперсії, накопиченої кожною функцією. Як видно, функція 1 відповідальна за 99,1% пояснений дисперсії, тобто 99,1% всієї дискримінує потужності визначається цією функцією, тому ця функція «важлива».

У діалоговому вікні Canonical Analysis(Рис.11) виберіть вкладку Advanced. У вікні, що клацніть кнопкою Factor structure (Факторна структура). В з'явилася таблиці (рис.14) наведені об'єднані внутрішньо групові кореляції змінних відповідними дискримінантному функціями.

рис.14

Ці кореляції називають ще структурними коефіцієнтами. Зазвичай структурні коефіцієнти використовують для змістовної інтерпретації функції, на відміну від коефіцієнтів дискримінантної функції, які позначають внесок кожної змінної функції. У змінних PETALLEN, PETALWID найбільші кореляції з дискримінантної функцією 1, у змінних SEPALWID, PETALWID - найбільші кореляції з дискримінантної функцією 2.

Натисніть в лівому нижньому кутку екрану Canonical Analysis: Irisdatі перейдіть до попереднього меню див. рис.11. Натисніть кнопку Means of canonical variables (Середні канонічні змінні). Програма виведе таблицю (рис. 15) з середніми значеннями для дискримінантних функцій, які дозволяють визначити групи, найкраще ідентифікуються конкретної дискримінантної функцією.

рис.15

З таблиці видно, що дискримінантний функція 1 ідентифікує в основному сорти SETOSA (значення середнього значно відрізняється від інших середніх), а дискримінантний функція 2 - сорт VERSICOL. Але дискримінантний функція 2 визначає лише 0,879% дискримінує потужності (100% - 99,121%).

Натисніть в лівому нижньому кутку екрану Canonical Analysis: Irisdatі перейдіть

на вкладку Canonical scores (Канонічне значення) см. Рис.11, клацніть кнопкою Canonical scores for each case (Канонічне значення для кожного спостереження) рис.16.

рис.16

З'явиться таблиця (рис.17) зі значеннями дискримінантних функцій для кожного спостереження. Спостереження (іриси), які визначаються програмою як об'єкт, що належать одній групі, повинні мати близькі значення дискримінантних функцій. Щоб зберегти ці значення, треба натиснути на кнопку Save canonical scores (зберегти канонічні значення).

кнопка By group призначена для виведення гістограми канонічних значень по групах. кнопка All groups combined виведе комбіновану гістограму для всіх груп.

По таблиці, зображеної на рис. 17, важко судити про результати поділу програмою спостережень за групами. Натисніть кнопку Scatterplot of canonical scores (Діаграма розсіювання для канонічних значень).

Мал. 17

З'явиться діаграма розсіювання (рис. 18) канонічних значень для пар значень дискримінантних функцій.

рис.18

На діаграмі видно, що спостереження (іриси), що належать однаковим групам (сортам), локалізовані в певних областях площині, при цьому відстань між центроїдами груп VERSICOL і VIRGINIC набагато менше, ніж відстань між центроїдами груп SETOSE і VERSICOL, SETOSA і VIRGINIC. Це може говорити про те, що сорти VERSICOL і VERGINIC найбільш схожі між собою, а сорт Setosa значно відрізняється від них обох.

З діаграми видно, що кольори сорти Setosa представлені на діаграмі точками далеко праворуч, т. Е. Цим квітам відповідають великі значення кореня дискримінанти 1. Тому дискримінантний функція 1 головним чином дискримінує квіти між цим сортом і двома іншими. Дискримінантний функція 2, мабуть, дає основну дискримінацію між квітками сорти VERSICOL (які переважно мають великі негативні значення кореня дискримінанти 2) і двома іншими сортами. Однак дискримінація тут не настільки чітко. Дискримінантний функція 1 сильніша, ніж дискримінантний функція 2. дискримінантний функція 1 має негативні коефіцієнти (див. Рис.13) для ширини (PETALWID) і довжини (PETALLEN) пестиков і позитивні коефіцієнти для ширини (SEPALWID) і довжини (SEPALLEN) чашолистків. Таким чином, чим ширше і довше маточки, коротше і вже чашолистки, тим менш імовірно, що це квітки сорту SETOSA.

Поверніться у вікно результатів Discriminant Function Analysis Results і активізуйте вкладку Classification. Відкриється вікно результатів класифікації (рис. 19).

рис.19

У рамці A priori classification probabilities (Апріорні ймовірності класифікації) наведені різні опції завдання апріорних ймовірностей того, що спостереження за класифікацією потрапить в одну з груп:

· Proportional to group sizes (Пропорційні розміри груп);

· User defined (Задана користувачем).

Апріорні ймовірності можуть істотно впливати на точність класифікації. Якщо є попередні відомості (оцінки) про можливе кількісному співвідношенні спостережень в групах, то бажано вибрати опцію User defined, Якщо таких відомостей немає і число спостережень групах приблизно однаково, то треба вибрати Same for all groups, в іншому випадку - Proportional to group sizes.

У рамці Score to save for each case (Зберегти для кожного спостереження) наведені опції, при виборі яких можна зберегти той чи інший результат класифікації:

· Save classification for case (Зберегти результат класифікації);

· Save distance for case (Зберегти відстані);

· Save posterior probability for case (Зберегти апостеріорні ймовірності).

В рядку Max. number of cases in a single results spreadsheet (Максимальне число спостережень в таблиці результатів) можна вказати максимальну кількість спостережень в таблиці результатів. Якщо спостережень більше зазначеного числа, то результати будуть виведені декількома таблицями.

Натисніть на кнопку Classification functions (Функції класифікації). Функції класифікації - це лінійні функції, які обчислюються для кожної групи і можуть бути використані для класифікації спостережень. Спостереження приписують тієї групи, для якої класифікаційна функція має найбільше значення.

У таблиці, зображеної на рис. 20. наведені коефіцієнти і вільні члени при змінних лінійних функцій. Наприклад, класифікаційне рівняння для групи SETOSA має вигляд:

SETOSA = 23.54 * SEPALEN + 23.58 * SEPALWID - 16.43 * PETALLEN - 17.39 * PETALWID - 86.30

Мал. 20

Натисніть на кнопку Classification matrix (Матриця класифікації). Матриця (рис.21) містить інформацію про кількість та відсоток коректно класифікованих спостережень в кожній групі. Рядки матриці - вихідні класи, стовпці - передбачені класи.

Мал. 21

Натисніть на кнопку Classification of cases (Класифікація спостережень). Програма виведе таблицю класифікації для кожного спостереження (рис.22).

рис.22

Класифікації впорядковані по першому, другому і третьому вибору. Стовпець 1 містить перший класифікаційний вибір, т. Е. Групу, для якої відповідне спостереження має найвищу апостеріорну ймовірність і найбільше значення класифікаційної функції. Спостереження, які не вдалося правильно класифікувати, позначені *.

Клацніть кнопкою Squared Mahalanobis distance (Квадрати відстаней Махаланобіса). Буде виведена таблиця квадратів відстаней Махаланобіса кожного спостереження від центроїда групи (рис. 23)

рис.23

Ці відстані аналогічні квадратах евклідових відстаней, але враховують кореляції між змінними в моделі. Спостереження приписують групі, до якої воно найближче. Спостереження, які не вдалося правильно класифікувати, також позначені *.

Натисніть кнопку Posterior probabilities (Апостеріорні ймовірності). У таблиці, (рис. 24) кожному спостереженню буде поставлена ??у відповідність імовірність приналежності до груп. Ця ймовірність визначається за допомогою відстаней Махаланобіса і апріорних ймовірностей. Чим далі спостереження розташовано від центру групи, тим менш імовірно, що воно належить цій групі. Спостереження приписують тієї групи, для якої є найбільша апостериорная ймовірність класифікації. Апріорні ймовірності можуть бути задані користувачем, можуть бути рівні для всіх груп, можуть бути пропорційні розмірам груп.

рис.24

На даному етапі зручно розглянути можливість класифікації нових спостережень. Для цього додайте в таблицю вихідних даних нове спостереження, наприклад, так, як це показано на рис. 25.

Мал. 25

Для того щоб зрозуміти до якого класу належить цей об'єкт, натисніть кнопку Posterior probabilitiesрис.26. З'явиться таблиця з апостеріорними можливостями, до якої буде додано рядок 151 (рис. 27).

рис.26

рис.27

Максимальне значення ймовірності відповідає групі SETOSA. Значить нове спостереження (квітка) з ймовірність 1.0 можна віднести до типу SETOSA.

 Мал. 18

Натисніть кнопку Squared Mahalanobis distances. З'явиться рядок таблиці з відстанями від нового випадку Центроїд групи (рис. 28).

рис.28

Відстань від нового квітки до Центроїд груп мінімально для груп SETOSA. Це додаткове підтвердження того, що новий квітка ірису відноситься до сорту SETOSA.

Якщо виділити вкладку Descriptives (Опису) (рис.29) і натиснути на кнопку Review Descriptive Statistics(Рис.30), то програма надасть користувачеві широкі можливості аналізу описових статистик вихідних даних, які можна використовувати для перевірки виконання припущень застосування параметричної дискримінації рис.31.

Так, на вкладці Quickрис.32 можна подивитися Pooled within-groups covariances & correlations (Об'єднані внутрішньо групові ковариации і кореляції) і Means & number of cases (Середні і число спостережень).

рис.29

рис.30

мал.31

рис.32

на вкладці Within (Всередині) рис.33 можна подивитися:

рис.33

o Pooled within-groups covariances & correlations (Об'єднані внутрішньо групові ковариации і кореляції)

o Within-groups standard deviations (Внутрішньо групові стандартні відхилення);

o Categorized histogram by group (Категоровані гістограми по групах);

o Box plot of means by group (Діаграми розмаху);

o Categorized scatterplot by group (Категоровані діаграми розсіювання);

o Categorized normal probability plot by group (Категорійних нормальний графік по групах).

вкладки All cases (Всі спостереження) рис. 34 надасть наступні дані:

Мал. 34

o Total covariances & correlations (Повні ковариации і кореляції);

o Plot of total correlations (Графік повної кореляції);

o Box plot of means (Діаграма розмаху середніх).

 



 Класифікаційний аналіз з навчанням |  Вступ
© um.co.ua - учбові матеріали та реферати