загрузка...
загрузка...
На головну

Актуальність проблеми

  1. АА вирішують проблеми питущих
  2. актуальність
  3. Актуальність і поширеність
  4. Актуальність дослідження геронтопсіхологіческіх проблем
  5. Актуальність моделі макроекономічного людини і теорія Дж. М. Кейнса
  6. Актуальність звернення сучасної педагогіки до релігійно-філософської спадщини

Сьогодні більшість коштів інтелектуального аналізу даних досить дороги - від 25-150 тисяч доларів за систему для підприємства невеликих або середніх масштабів і до багатьох мільйонів для гіганта на зразок Wal-Mart. П'ять років тому одна страхова компанія витратила на систему інтелектуального аналізу даних понад 10 мільйонів доларів. За словами її головного виконавчого директора, він розуміє, що сьогодні зміг би придбати аналогічну систему за набагато менші гроші, але отримана з тих пір віддача з лишком окупила витрачені мільйони. Цей приклад дає певне уявлення про цінності інтелектуального аналізу даних для бізнесу. Однак високі ціни на інструментарій свідчать про те, що нині застосовується ПО за своїм рівнем складності все ще належить до старого світу, в якому лише найбільші організації, котрі мали великим штатом співробітників або користувалися послугами вузько спеціалізованих виробників, можуть дозволити собі глибоку переробку даних.

Зі зростанням конкуренції в нашій заснованої на інформації економіці відомості про клієнтів стають все більш важливим виробничим ресурсом. Кожна компанія і кожен працівник інтелектуальної праці просто зобов'язані отримувати максимум можливого з наявних даних. Багато нові користувачі не можуть дозволити собі великих витрат на інструментарій для роботи з базами даних або на висококваліфікованих вузьких фахівців. На щастя, у міру освоєння засобами інтелектуального аналізу даних такої масової платформи, як персональний комп'ютер, неминуче має статися стрімке зниження цін з вибухоподібним зростанням популярності цього інструментарію в компаніях всіх масштабів і в їх підрозділах. Незабаром кожен користувач з ділової сфери зможе проводити складну обробку інформації, перш за доступну лише організаціям, здатним викласти за неї великі гроші. Інтелектуальний аналіз даних проникне скрізь, увійде в стандартний набір функціональних можливостей інформаційної інфраструктури будь-якої компанії.

Головна цінність інтелектуального аналізу даних для бізнесу буде полягати в тому, що він допоможе відповісти на питання, які продукти можна буде створювати і до яких рівнів цін слід прагнути. Компанії зможуть оцінювати безліч різних варіантів цін і розмірів партій, вибираючи найбільш вигідні для себе і найбільш привабливі для клієнтів. Особливо великий інтерес такі можливості представляють для компаній, що пропонують інформаційні продукти. На відміну від виробництва автомобілів або, скажімо, стільців, в сфері страхових або фінансових послуг, а також у книговидавничій діяльності на етап розробки доводиться значно більше витрат, ніж на етап виробництва. Вартість же цих продуктів визначається не стільки величиною вироблених вкладень, скільки їх цінністю для покупця. Секрет успіху інформаційного продукту - в розумінні продавцем інтересів найбільш ймовірного клієнта та особливостей його купівельної поведінки.

Страхові компанії, наприклад, пропонують такі продукти, які можуть виявитися для них дуже прибутковими при придбанні одними клієнтами, малоприбутковими - при придбанні іншими і зовсім неприбутковими - при придбанні третіми. Ця різниця корелює зі статистикою страхових випадків. Інтелектуальний аналіз даних дозволяє виділити категорії клієнтів і географічні області, для яких характерний високий або низький рівень виплат по страховці. Виходячи з цього, можна прийняти рішення про посилення маркетингової активності щодо потенційних клієнтів, вікова група або географія проживання яких дозволяють розраховувати на низький рівень страхових виплат, а також про пропозицію їм привабливих цін. З іншого боку, можливі й рішення про підвищення цін або скорочення маркетингових зусиль стосовно групам клієнтів з "несприятливою" статистикою. Коли в умовах ведення бізнесу є такі відмінності, застосування інтелектуального аналізу даних при розробці стратегії здатне дати дуже багато. Аналогічні можливості застосування цієї технології існують і при пошуку нових клієнтів банками. Люди змінюють сьогодні банки набагато частіше, ніж раніше, і з'являється все більше нових компаній, що пропонують фінансові послуги. Для залучення клієнтів доводиться робити все більш серйозні маркетингові зусилля, які окупаються тільки в тих випадках, коли ці клієнти виявляються досить вигідними.

І, нарешті, завжди слід шукати відповіді на запитання: чи зможете ви використовувати результати аналізу на практиці? Якщо контингент ваших клієнтів значною мірою однорідний або загальне їх число невелике, користі від самого що ні на є інтелектуального аналізу буде далеко не так багато, як в розглянутих прикладах. Бакалійник, що пропонує делікатеси вузькому колу клієнтів, які проживають по сусідству з його лавкою, ймовірно, не потребує цієї технології. А ось загальнонаціональна мережа бакалійних магазинів - зовсім інша справа.

Потужні можливості інтелектуального аналізу даних будуть корисні компаніям, які шукають способи залучення нових клієнтів; виробляє орієнтири для своїх маркетингових зусиль; які намагаються визначити, в який бік далі розвивати продукти і до якого рівня цін прагнути, чим зацікавити конкретних клієнтів. Людська винахідливість і висока кваліфікація необхідні, щоб використовувати цю інформацію для вироблення нових підходів до самих різних сторонах комерційної діяльності - від упаковки до ціноутворення, щоб розгледіти контури нових продуктів в виданих комп'ютером звітах і придумати привабливі для клієнтів нові пропозиції. Чим краще інструментарій, який використовується фахівцями для цієї роботи, тим ефективніше вони можуть застосовувати свої творчі здібності. Керівництву компанії не слід шкодувати грошей на розширення можливостей співробітників. Буде розумно виділяти 3-4% від фонду заробітної плати працівників інтелектуальної праці на придбання для них найкращого інструментарію. Якщо його застосування позбавить людей від рутини, вони зможуть всю свою розумову енергію направити на творче використання закономірностей і тенденцій, виявлених комп'ютером в автоматичному режимі. Використання інформації для створення новаторських продуктів і послуг, а також для зміцнення співпраці з партнерами і клієнтами, завжди залишиться виключною прерогативою людини. Чим більше цінної руди стане витягати ПО з покладів даних, тим більше буде у людей роботи по перетворенню цієї руди в золото.

Інтелектуальний аналіз даних (англ. Data Mining) - Виявлення прихованих закономірностей або взаємозв'язків між змінними у великих масивах необроблених даних. Як правило підрозділяється на задачі класифікації, моделювання і прогнозування. Процес автоматичного пошуку закономірностей у великих масивах даних. термін Data Mining ведений Григорієм Пятецкий-Шапіро в 1989 р

Англійський термін «Data Mining» не має однозначного перекладу на російську мову (видобуток даних, розтин даних, інформаційна проходка, вилучення даних / інформації) тому в більшості випадків використовується в оригіналі. Найбільш вдалим непрямим перекладом вважається термін Інтелектуальний аналіз даних.

ИАД включає методи і моделі статистичного аналізу і машинного навчання, дистанціюючись від них в сторону автоматичного аналізу даних. Інструменти ИАД дозволяють проводити аналіз даних предметними фахівцями (аналітиками), які не володіють відповідними математичними знаннями.

Завдання вирішуються Data Mining:

1. Класифікація - віднесення вхідного вектора (об'єкта, події, спостереження) до одного з заздалегідь відомих класів.

2. Кластеризація - поділ множини вхідних векторів на групи (кластери) за ступенем «схожості» один на одного.

3. Регресія - встановлення залежності безперервними вхідним і вихідним векторами.

4. Асоціація - пошук повторюваних патернів. Наприклад, пошук стійких зв'язків в кошику покупця (market basket analysis) - разом з пивом купують горішки.

5. Послідовні шаблони - аналогічно завданню асоціації, але з урахуванням тимчасової складової. Наприклад, пошук причинно-наслідкових зв'язків.

6. Прогнозування - аналогічно завданню регресії, але з урахуванням тимчасової складової. Наприклад, прогноз трендів фінансових показників.

7. Аналіз відхилень - виявлення найбільш нехарактерних патернів. Наприклад, виявлення нетиповою мережевої активності дозволяє виявити шкідливі програми.

У літературі можна зустріти ще ряд класів задач. Базовими завданнями є перші чотири. Решта завдань зводяться до них той чи інший спосіб.

Для ефективного управління бізнесом в сфері електронної комерції в даний час великого поширення отримують методи бізнес-аналітики (BI - Business Intelligence). У сферу їх застосування входять завдання з прогнозування обсягів продажів, управління кількістю товарних запасів, визначення оптимальних торгових націнок, виявлення типових патернів купівельної поведінки, оптимізації навігації по сайту, поліпшенню рубрикації і т.п.

У повноцінну систему бізнес-аналітики повинні входити такі складові: сховище даних, засоби обробки даних, засоби аналізу даних, засоби візуалізації.

Сховище даних заповнюється відомостями, вилучаються з систем оперативного обліку. Використання окремого сховища даних обумовлено необхідністю об'єднання інформації з різнорідних джерел, виконання попередньої обробки даних (заповнення пропущених значень, видалення аномальних значень, предагрегація) і організації інформації в зручній для подальшого аналізу формі.

Для аналізу даних використовуються кошти багатовимірного зберігання та аналітичної обробки даних (OLAP - Online Analytical Processing), що представляють бізнес-операції у вигляді фактів (обсяг продажів, число одиниць на складі і т.д.) і вимірювань (час, географія, постачальник, покупець , товар і т.д.). Засоби OLAP дозволяють здійснювати стратегічний огляд ситуації і в реальному часі отримувати відповіді на питання, що цікавлять аналітика. Засоби OLAP в основному призначені для швидкого складання звітності за консолідованим показниками процесів в різних розрізах і з довільною глибиною "провалювання" в оперативні дані. Засоби OLAP також ідеально підходять для перевірок заздалегідь сформульованих аналітиком гіпотез.

З метою автоматичного виявлення раніше невідомих знань в накопичених даних використовуються технології інтелектуального аналізу даних, звані також "розкопкою даних" (Data Mining), "виявленням знань в базах даних" (Knowledge Discovery in Databases). На відміну від технології OLAP сам пошук закономірностей і шаблонів в даних здійснюється не користувачем системи, а самою технологією, що реалізує кілька алгоритмів Data Mining.

У список основних завдань, що вирішуються алгоритмами DM, входять:

· Сегментація (виявлення структури, груп, кластерів);

· Пошук асоціацій (зв'язків між різними характеристиками);

· Пошук тимчасових шаблонів;

· Регресія (прогнозування, класифікація, відновлення функціональної залежності між характеристиками).

Отже, ИАД (Data Mining) - це процес підтримки прийняття рішень, заснований на пошуку в даних схованих закономірностей (шаблонів інформації). При цьому накопичені відомості автоматично узагальнюються до інформації, яка може бути охарактеризована як знання.

У загальному випадку процес ІАД складається з трьох стадій (рис. 1):

1) виявлення закономірностей (вільний пошук);

2) використання виявлених закономірностей для передбачення невідомих значень (прогностичне моделювання);

3) аналіз винятків, призначений для виявлення і тлумачення аномалій в знайдених закономірностях.

Іноді в явному вигляді виділяють проміжну стадію перевірки достовірності знайдених закономірностей між їх знаходженням і використанням (стадія валідації).

Мал. 1. Стадії процесу інтелектуального аналізу даних

Всі методи ІАД поділяються на дві великі групи за принципом роботи з вихідними навчальними даними.

1. У першому випадку вихідні дані можуть зберігатися в явному детальному вигляді і безпосередньо використовуватися для прогностичного моделювання та / або аналізу виключень; це так звані методи міркувань на основі аналізу прецедентів. Головною проблемою цієї групи методів є ускладненість їх використання на великих обсягах даних, хоча саме при аналізі великих сховищ даних методи ІАД приносять найбільшу користь.

2. У другому випадку інформація спочатку витягується з первинних даних і перетворюється в деякі формальні конструкції (їх вид залежить від конкретного методу). Згідно з попередньою класифікацією, цей етап виконується на стадії вільного пошуку, яка у методів першої групи в принципі відсутня. Таким чином, для прогностичного моделювання та аналізу винятків використовуються результати цієї стадії, які набагато більш компактні, ніж самі масиви вихідних даних. При цьому отримані конструкції можуть бути або "прозорими" (інтерпретуються), або "чорними ящиками" (нетрактуемимі).

Дві ці групи і приклади входять до них методів представлені на рис. 2.

Мал. 2. Класифікація

Системи ИАД застосовуються в наукових дослідженнях та освіті, в роботі правоохоронних органів, виробництві, охороні здоров'я та багатьох інших областях. Особливо широко технологія ІАД використовується в ділових програмах. У таблиці 1 наведено кілька прикладів додатків в області фінансів і маркетингового аналізу.

 Додаток (організація)  опис
 FALCON (HNC Software, Inc.)  Інструментальне засіб для оперативного виявлення зловживань з кредитними картками; більше 100 організацій-користувачів відзначають скорочення кількості порушень на 20-30%.
 Класифікатор дебіторських рахунків (Internal Revenue Service)  Виявлення рахунків потенційно платоспроможних дебіторів на основі аналізу великих обсягів архівних даних щодо сплати податків.
 Підвищення якості архівної фінансової інформації (Lockheed)  Виявлення закономірностей (у вигляді правил виведення) в архівних фінансових даних для використання в моделях прогнозування, системах підтримки прийняття рішень щодо інвестування і т.д.
 Верифікація даних по курсам валют (Reuters)  Система виявлення помилок в оперативно надходять даних по курсам валют. За допомогою нейронних мереж і індуктивного виведення правил будуються за приблизними прогнозами, які порівнюються з вступниками даними. Великі відхилення розглядаються як можливі помилки.
 Прогнозування невиплат в операціях з нерухомістю (Leeds)  Аналіз архівних даних по операціях з нерухомістю та виявлення патернів, відповідних проблемних операціях, що закінчується невиплатами. Виявлені закономірності використовуються для оцінки ризику при укладанні нових угод.
 Маркетингові дослідження (Dickinson Direct)  Визначення характеристик типових покупців продукції компанії для виявлення нових потенційних клієнтів (профілювання клієнтів).
 Маркетингові дослідження (Reader's Digest Canada)  Виявлення основних сегментів ринку і найбільш сприятливих підмножин, а також дослідження залежностей між основними показниками і характеристиками сегментів.
 Установка лотерейних автоматів (Automated Wagering, Inc.)  Об'єднання методів ІАД з географічним аналізом для визначення найкращих місць для установки лотерейних автоматів в штаті Флорида.
 Виявлення потенційних покупців автомобільних стерео систем (Washington Auto Audio, Inc.)  Аналіз демографічної бази даних, що містить інформацію про 14000 реальних і потенційних клієнтів, дозволив за 90 секунд отримати 3 досить надійних індикатора для прогнозу попиту на продукцію і послуги компанії. Аналогічні результати були отримані в результаті традиційного дослідження, виконаного однієї з консалтингових компаній, причому це дослідження обійшлося фірмі на порядок дорожче, ніж автоматизована система інтелектуального аналізу даних.

Таблиця 1. Приклади використання методів інтелектуального аналізу даних в фінансовихдодатках і маркетинговому аналізі

Як видно з таблиці 1, результати ИАД представляють велику цінність для керівників і аналітиків в їх повсякденній діяльності. Тому перед розробниками постає завдання впровадження технології ІАД в автоматизовані системи аналізу та підтримки прийняття рішень. На відміну від дослідницьких програм, подібні системи повинні орієнтуватися на непрограммірующего користувача і на вирішення конкретних проблем, які виявляються досить різноманітними і нерідко вимагають застосування різних підходів. Наприклад, від автоматизованої системи аналізу фінансового стану комерційного банку може знадобитися рішення таких задач як:

· Отримання звітності банку і перевірка її повноти і коректності;

· Проведення угруповання статей балансу і розрахунок економічних нормативів і аналітичних коефіцієнтів (наприклад, за методом CAMEL);

· Перевірка економічних нормативів за методикою ЦБ РФ;

· Оцінка стану банку за системою аналітичних коефіцієнтів;

· Визначення рейтингу банку;

· Аналіз динаміки основних показників, виявлення тенденцій і прогнозування стану банку;

· Аналіз ступеня впливу тих чи інших факторів на стан банку;

· Вироблення рекомендацій щодо оптимізації банківського балансу.

Ця система забезпечує вирішення кількох завдань, від збору і перевірки коректності інформації, що надходить в базу даних, до традиційного і / або інтелектуального аналізу даних (ступінь впливу різних чинників на стан банку, прогнозування) та оптимізаційного аналізу, причому від користувача не потрібно спеціальних знань в області баз даних, факторного аналізу або методів оптимізації.

На жаль, універсальні засоби ІАД досить складні і дороги, тому вони не можуть широко застосовуватися в рамках інтегрованих систем, орієнтованих на кінцевого користувача. Дійсно, в основу технології ІАД покладений не один, а кілька принципово різних підходів (таблиця 2), причому використання деяких з них неможливо без спеціальної підготовки. Вибір підходу нерідко вимагає залучення фахівця з ІАД.

Таблиця 2. Основні технології інтелектуального аналізу даних

 технологія  переваги  недоліки
 Правила виведення  Зручні в тих випадках, коли дані пов'язані відносинами, які представлені у вигляді правил "якщо то"  При великій кількості правил втрачається наочність; не завжди вдається виділити відносини "якщо то"
 Нейронні мережі  Зручні при роботі з нелінійними залежностями, зашумленими і неповними даними  "Чорний ящик": модель не може пояснити виявлені знання; дані обов'язково повинні бути перетворені до числовому увазі
 нечітка логіка  Ранжирують дані за ступенем близькості до бажаних результатів; нечіткий пошук у базах даних  Технологія нова, тому зараз відомо обмежене число спеціалізованих додатків
 візуалізація  Багатовимірне графічне представлення даних, за яким користувач сам виявляє закономірності - зразки і відносини між даними  Моделі не виконуються, і їх інтерпретація повністю залежить від аналітика
 Статистика  Є велике число алгоритмів і досвід їх застосування в наукових і інженерних додатках  Більше підходять для перевірки гіпотез, ніж для виявлення нових закономірностей в даних
 К-найближчий сусід  Виявлення кластерів, обробка цілісних джерел даних  Великі витрати пам'яті, проблеми з чутливістю
 Інтегрірованниетехнологіі  Можна вибирати підходи, адекватні завданням, або порівнювати результати застосування різних підходів.  Складні засоби підтримки; висока вартість; для кожної окремо взятої технології не завжди реалізується найкраще рішення

Однак навряд чи є сенс використовувати універсальні засоби ІАД у всіх випадках, оскільки накопичений досвід роботи з методами інтелектуального аналізу вже дозволив виділити типові завдання і визначити найбільш ефективні методи їх вирішення. Існуючі системи ІАД можна поділити на дослідні, орієнтовані на фахівців і призначені для роботи з новими типами проблем, і прикладні, розраховані на непрограммірующіх користувачів (аналітиків, менеджерів, технологів і т.д.) і вирішальні типові завдання. Якщо в дослідницьких системах ІАД важливо різноманітність доступних методів обробки даних і гнучкість використовуваних засобів, то в прикладних системах такі широкі можливості виявляються зайвими. У подібних системах доцільно реалізовувати не методи, а типові види міркувань (аналізу), характерні для проблемної області. Створення відповідних інструментальних засобів з дружнім інтерфейсом забезпечує доступність ІАД для широкого кола користувачів.



Попередня   87   88   89   90   91   92   93   94   95   96   97   98   99   100   101   102   Наступна

розділ 6 | Автоматизовані системи набуття знань (АЗПЗ) | Метод репертуарних решіток | ДСМ - МЕТОД | розділ 7 | Поняття нечіткого логічного висновку | методи фаззифікація | методи дефазифікації | Система нечіткого висновку Мамдані-Заде | Нейронні мережі для нечіткого виведення. Архітектура нечіткої мережі, заснованої на нейронних мережах |

загрузка...
© um.co.ua - учбові матеріали та реферати