На головну

Поняття інформативності даних

  1. b. при медичному обстеженні учнів шкіл району частина даних про зростання представлена ??в сантиметрах, а частина - в метрах
  2. I. Конституційний лад РФ: поняття, структура і базові характеристики.
  3. I. Поняття відповідальності за порушення зобов'язання
  4. I.3.4. Методи підготовки даних для перенесення проекту на місцевість.
  5. III.1. Поняття грошового обігу. Готівковий і безготівковий грошовий обіг
  6. IV. Громадянське суспільство: поняття, структура, основні конституційні початку.

Одною з поширених помилок при зборі даних з структурованих джерел є прагнення взяти для аналізу якомога більше ознак, що описують об'єкти.

Тим часом попередня оцінка даних, яка проводиться візуально за допомогою таблиць і базової статистичної інформації по набору даних, істотно допомагає у визначенні інформативності ознак з точки зору аналізу.

Серед неінформативних ознак виділяється чотири типи:

- Ознаки, що містять тільки одне значення (Мал. а);

- Ознаки, що містять в основному одне значення (Ріс.б);

- Ознаки з унікальними значеннями (Рис. В);

- Ознаки, між якими має місце сильна кореляція, - В цьому випадку для аналізу можна взяти один стовпець (рис. Г).

Аналітичні інструменти намагаються побудувати моделі на основі запропонованих даних, тому чим ближче дані до дійсності, тим краще.

Необхідно розуміти: модель не може «знати» про те, що знаходиться за межами зібраних для аналізу даних.

Існують вимоги до мінімальних обсягів даних для можливості побудови моделей на їх основі. Залежно від представлення даних і розв'язуваної задачі ці вимоги різні. для часових рядів, Які відносяться до впорядкованим даними, вимоги такі:

якщо для модельованого бізнес-процесу (наприклад, продажу) характерна сезонність / циклічність, то необхідно мати дані хоча б за один повний сезон / цикл з можливістю варіювання інтервалів (потижнево, помісячне і т. д.).

Максимальний горизонт прогнозування залежить від обсягу даних:

· Дані за 1,5 року - прогноз можливий максимум на 1 місяць;

· Дані за 2-3 роки - на 2 місяці.

для невпорядкованих даних вимоги наступні:
 ? Кількість прикладів (прецедентів) має бути значно більше кількості факторів.
 ? Бажано, щоб дані покривали якнайбільше ситуацій реального процесу.
 ? Пропорції різних прикладів (прецедентів) повинні приблизно відповідати реальному процесу.

транзакційні дані.

Аналіз транзакцій доцільно проводити на великому обсязі даних, інакше можуть бути виявлені статистично необгрунтовані правила. Алгоритми пошуку асоціативних зв'язків здатні швидко переробляти величезні масиви даних. Приблизне співвідношення між кількістю об'єктів і обсягом даних наступне:

? 300-500 об'єктів - не менше 10 тис. Транзакцій;
 ? 500-1000 об'єктів - понад 300 тис. Транзакцій.

 



Загальна характеристика методів збору даних, поняття інформативності даних | Класифікація і загальна характеристика завдань, що вирішуються Data Mining

Аналіз даних можна розглядати тільки як обробку інформації після її збору аналіз даних - це перш за все засіб перевірки гіпотез і вирішення завдань дослідника. | Інформаційний підхід до моделювання | Роль експерта і аналітика в процесі створення інформаційної моделі. Загальна схема аналізу. | Витяг і візуалізація даних | Загальна характеристика етапів моделювання на основі даних | Пошук моделі. | Форми представлення даних | типи даних | Аналітику важливо розуміти природу даних для вибору адекватних методів їх предобработки, очищення та побудови моделей | формалізація даних |

© um.co.ua - учбові матеріали та реферати