загрузка...
загрузка...
На головну

Загальні відомості про нейронних мережах з радіальними базисними функціями

  1. HTML: Загальні відомості.
  2. I. Загальні положення
  3. I. Загальні положення
  4. I. Загальні положення
  5. I. Загальні положення
  6. I. Загальні положення
  7. I. Загальні положення

Багатошарові нейронні мережі виконують апроксимацію функції декількох змінних шляхом перетворення множини вхідних змінних в безліч вихідних змінних.

Існує спосіб відображення вхідного безлічі в вихідну безліч, що полягає в перетворенні шляхом адаптації декількох одиночних аппроксимирующих функцій до очікуваних значень, причому ця адаптація проводиться тільки в обмеженій області багатовимірного простору.

При такому підході відображення всього безлічі даних є сумою локальних перетворень. З урахуванням ролі, яку відіграють приховані нейрони, перетворення складають безліч базисних функцій локального типу. Виконання одиночних функцій (при ненульових значеннях) реєструється тільки в обмеженій області простору даних - звідси і назва локальна апроксимація.

Особливу сімейство утворюють мережі з радіальної базисної функцією, в яких нейрони реалізують функції, радіально змінюються навколо обраного центру і приймають ненульові значення лише в околиці цього центру. Подібні функції, які визначаються у вигляді

 H (x) = H (|| x-c ||),  (1.1)

де х - виходи нейронів першого шару;

з - центр радіальної базисної функції.

Такі функції називаються радіальними базисними функціями. У них роль нейрона полягає в відображенні радіального простору навколо одиночної заданої точки (центру), або навколо групи таких точок, що утворюють кластер. Суперпозиція сигналів, що надходять від усіх таких нейронів, яка виконується вихідним нейроном, дозволяє отримати відображення всього багатовимірного простору.

Мережі радіального типу являють собою природне доповнення сигмоїдальних мереж. Сигмоїдальні нейрон представляється в багатовимірному просторі гиперплоскостью, що розділяє цей простір на дві категорії (два класи), в яких виконується одна з двох умов: або (u, x)> 0, або (u, x) <0. Такий підхід продемонстрований на малюнку 1.1 а.

Малюнок 1.1 - Ілюстрація способів поділу простору даних: а) Сигмоїдальні нейроном; б) радіальним нейроном

У свою чергу, радіальний нейрон являє собою гіперсферу, яка здійснює кульове поділ простору навколо центральної точки відповідно до малюнком 1.1 б. Саме з цієї точки зору він є природним доповненням Сигмоїдальні нейрона, оскільки в разі кругової симетрії даних дозволяє помітно зменшити кількість нейронів, необхідних для поділу різних класів. Оскільки нейрони можуть виконувати різні функції, в радіальних мережах відсутня необхідність використання великої кількості прихованих шарів.

Структура типової радіальної мережі включає вхідний шар, на який подаються сигнали, які описуються вхідним вектором, прихований шар з нейронами радіального типу і вихідний шар, що складається, як правило, з одного або декількох лінійних нейронів. Функція вихідного нейрона зводиться виключно до зваженого підсумовування сигналів, що генеруються прихованими нейронами [3].

На малюнку 1.2 представлена ??структура нейронної мережі з радіальними базисними функціями.

Малюнок 1.2 - Структура нейронної мережі з радіальними базисними функціями

У математичній статистиці в якості радіальних базисних функції часто використовують поліноміальні функції

hj(X) = xj,  (1.2)

де x - виходи нейронів першого шару;

j - коефіцієнт викривлення.

Комбінація синусоїдальних функцій (ряди Фур'є) часто використовується при обробці сигналів

,  (1.3)

де ?j - Центр функції;

m - радіус функції.

Логістичні функції найбільш популярні в багатошарових штучних нейронних мережах

,  (1.4)

де b - центр функції;

b0 - Коефіцієнт підстроювання.

Найбільш поширеною функцією, яка застосовується для розпізнавання образів, є функція Гаусса

,  (1.5)

де з = (з1, з2, ..., Зn) - Вектор координат центру активационной функції нейрона прихованого кулі;

? - ширина вікна активационной функції нейрона прихованого кулі. [4]

1.3.2 Математичні основи нейронних мереж з радіальними базисними функціями

Математичну основу функціонування радіальних мереж становить теорема Т. Ковера про розпізнаваності образів, відповідно до якої нелінійні проекції образів в деякий багатовимірний простір можуть бути лінійно розділені з більшою ймовірністю, ніж при їх проекції в простір з меншою розмірністю.

Якщо вектор радіальних функцій в N-вимірному вхідному просторі позначити h (x), то це простір є нелінійно h - розділяються на два просторових класу X+ і X- тоді, коли існує такий вектор ваг, що

uTh (x)> 0, x € X+, uTh (x) <0, x € X-.  (1.6)

Кордон між цими класами визначається рівнянням

uTh (x) = 0.  (1.7)

Доведено, що кожне безліч образів, випадковим чином розміщених в багатовимірному просторі, є h - розділяються з ймовірністю 1 за умови відповідно великої розмірності цього простору. На практиці це означає, що застосування досить великої кількості прихованих нейронів, що реалізують радіальні функції h (x), гарантує вирішення завдання класифікації при побудові всього лише двошарової мережі: прихований шар повинен реалізувати вектор h (x), а вихідний шар може складатися з єдиного лінійного нейрона, який виконує підсумовування вихідних сигналів від прихованих нейронів з ваговими коефіцієнтами, заданими вектором w.

Найпростіша нейронна мережа радіального типу функціонує за принципом багатовимірної інтерполяції, що складається у відображенні р різних вхідних векторів xi (I = 1, 2, ... р) з вхідного N-мірного простору в безліч з р раціональних чисел yi (I = 1, 2, ... р). Для реалізації цього процесу необхідно використовувати р прихованих нейронів радіального типу і задати таку функцію відображення F (x), для якої виконується умова інтерполяції

F (xi) = Yi.  (1.8)

Використання р прихованих нейронів, що з'єднуються зв'язками з вагами wi з вихідними лінійними нейронами, означає формування вихідних сигналів мережі шляхом підсумовування зважених значень відповідних базисних функцій. Розглянемо радіальну мережу з одним виходом і р навчальними парами (xi, yi). Приймемо, що координати кожного з p центрів вузлів мережі визначаються одним з векторів xi. В цьому випадку взаємозв'язок між вхідними та вихідними сигналами мережі може бути визначена системою рівнянь, лінійних відносно ваг w.

Якщо припустити, що параметри функції Гаусса, зміщення з і радіус ? фіксовані, тобто якимось чином вже визначені, то завдання знаходження ваг вирішується методами лінійної алгебри. Цей метод називається методом псевдообернених матриць і він мінімізує середній квадрат помилки. Суть цього метод така. [3]

Знаходиться інтерполяціонная матриця H

.  (1.9)

На наступному етапі обчислюється інверсія твори матриці H на транспоновану матрицю HT

.  (1.10)

Остаточний результат, матриця ваг, розраховується за формулою

.  (1.11)

Отримана архітектура радіальних мереж має структуру, аналогічну багатошаровій структурі сигмоїдальних мереж з одним прихованим шаром. Роль прихованих нейронів в ній грають базисні радіальні функції, що відрізняються своєю формою від сигмоїдальних функцій. Незважаючи на зазначене схожість, мережі цих типів принципово відрізняються один від одного.

Радіальна мережа має фіксовану структуру з одним прихованим шаром і лінійними вихідними нейронами, тоді як сигмоїдальна мережу може містити різну кількість шарів, а вихідні нейрони бувають як лінійними, так і нелінійними. Використовувані радіальні функції можуть мати вельми різноманітну структуру.

Нелінійна радіальна функція кожного прихованого нейрона має свої значення параметрів зi и si, тоді як в сигмоидальной мережі застосовуються, як правило, стандартні функції активації c одним і тим же для всіх нейронів параметром ?. Аргументом радіальної функції є евклідова відстань зразка x від центру зi, А в сигмоидальной мережі це скалярний добуток векторів wTx.

Ще більші відмінності між цими мережами можна помітити при детальному порівнянні їх структур. Сигмоїдальна мережу має багатошарову структуру, в якій спосіб упорядкування нейронів повторюється від шару до шару. Кожен нейрон в ній виконує підсумовування сигналів з наступною активацією.

Структура радіальної мережі дещо інша. На малюнку 1.2 зображена детальна схема мережі РБФ з радіальної функцією при класичному розумінні евклідовой метрики. З малюнка видно, що перший шар становлять нелінійні радіальні функції, параметри яких (центри зi і коефіцієнти si) уточнюються в процесі навчання. Перший шар не містить лінійних ваг в розумінні, характерному для сигмоидальной мережі.

1.3.3 Нелінійна модель розрахунку параметрів радіальної базисної функції

Якщо попереднє припущення про фіксовані параметри функції активації не виконується, тобто крім терезів необхідно налаштувати параметри активационной функції кожного нейрона (зміщення функції і її радіус), завдання стає нелінійної. Вирішувати її доводиться з використанням ітеративних чисельних методів оптимізації, наприклад, градієнтних методів.

Звернення до центру має відповідати кластерам, реально присутнім у вихідних даних. Розглянемо два найбільш часто використовуваних методу.

Вибірка з вибірки. Як центри радіальних елементів беруться кілька випадково вибраних точок навчальної вибірки. В силу випадковості вибору вони "представляють" розподіл навчальних даних в статистичному сенсі. Однак, якщо число радіальних елементів невелика, таке подання може бути незадовільним.

Алгоритм K-середніх. Цей алгоритм прагне вибрати оптимальний безліч точок, які є центроїдами кластерів в навчальних даних. При K радіальних елементах їх центри розташовуються таким чином, щоб:

- Кожна навчальна точка "ставилася" до одного центру кластера і лежала до нього ближче, ніж до будь-якого іншого центру;

- Кожен центр кластера був центроїдом безлічі навчальних точок, що належать до цього кластеру.

Після того, як визначено розташування центрів, потрібно знайти відхилення. Величина відхилення (її також називають згладжує фактором) визначає, наскільки "гострої" буде Функція Гауса.

Якщо ці функції обрані занадто гострими, мережа не буде інтерполювати дані між відомими точками і втратить здатність до узагальнення. Якщо ж гаусові функції взяті надто широкими, мережа не буде сприймати дрібні деталі.

Насправді сказане - ще одна форма прояву дилеми перенавчання і недообученного. Як правило, відхилення вибираються таким чином, щоб ковпак кожної гаусом функцій захоплював "кілька" сусідніх центрів. Для цього є кілька методів:

- Явний (відхилення задаються користувачем);

- Ізотропний (відхилення береться однаковим для всіх елементів і визначається евристично з урахуванням кількості радіальних елементів і обсягу покривається простору);

- K-середніх (відхилення кожного елемента встановлюється (індивідуально) рівним середній відстані до його «K найближчих сусідів», тим самим відхилення будуть менше в тих частинах простору, де точки розташовані густо, - тут будуть добре враховуватися деталі, - а там, де точок мало, відхилення будуть великими і буде проводиться інтерполяція) [5].

Останнім часом набули поширення методи навчання нейронних мереж з радіальними базисними функціями, в яких використовується поєднання генетичних алгоритмів для підбору параметрів активаційних функцій і методів лінійної алгебри для розрахунку вагових коефіцієнтів вихідного шару по формулі 1.11. Тобто на кожній ітерації пошуку генетичний алгоритм самостійно вибирає в яких точках простору вхідних сигналів мережі розмістити центри активаційних функцій нейронів прихованого шару і призначає для кожної з них ширину вікна. Для отриманої таким чином сукупності параметрів прихованого шару за формулою 1.11 обчислюються ваги вихідного шару і виходить при цьому помилка апроксимації, яка служить для генетичного алгоритму індикатором того, наскільки поганий або гарний даний варіант. На наступній ітерації генетичний варіант відкине «погані» варіанти і буде працювати з наборами, які показали найкращі результати на попередній ітерації. [3]


Люди вирішують складні завдання розпізнавання образів з вражаючою легкістю. Дворічна дитина без видимих ??зусиль розрізняє тисячі осіб та інших об'єктів, що становлять його оточення, не дивлячись на зміну відстані, повороту, перспективи і освітлення.

Може скластися враження, що вивчення цих вроджених здібностей повинно зробити простий завдання розробки комп'ютера, який повторює здатності людини до розпізнавання. Ніщо не може бути більш далеким від істини. Подібність і відмінності образів, які є очевидними для людини, поки ставлять в безвихідь навіть найбільш складні комп'ютерні системи розпізнавання.

Таким чином, незліченна кількість важливих додатків, в яких комп'ютери можуть замінити людей в небезпечних, нудних або неприємних роботах, залишаються за межами їх поточних можливостей.

Комп'ютерне розпізнавання образів є більше мистецтвом; наука обмежена наявністю декількох методик, що мають відносно невелике використання на практиці. Інженер, конструює типову систему розпізнавання образів, зазвичай починає з розпізнавання друкованого тексту. Ці методи часто є неадекватними завданню, і старання розробників швидко зводяться до розробки алгоритмів, вузько специфічних для даного завдання.

Зазвичай метою конструювання систем розпізнавання образів є оптимізація її функціонування над вибірковим набором образів. Дуже часто розробник завершує цю задачу знаходженням нового, приблизно схожого образу, що призводить до невдалого завершення алгоритмів. Цей процес може тривати невизначено довго, ніколи не приводячи до стійкого рішенням, достатньому для повторення процесу сприйняття людини, що оцінює якість функціонування системи.

На щастя, ми маємо існуючий доказ того, що завдання може бути вирішена: це система сприйняття людини. З огляду на обмеженість успіхів, досягнутих в результаті прагнення до власних винаходів, здається цілком логічним повернутися до біологічних моделям і спробувати визначити, яким чином вони функціонують так добре. Очевидно, що це важко зробити з кількох причин. По-перше, надвисока складність людського мозку ускладнює розуміння принципів його функціонування. Важко зрозуміти загальні принципи функціонування і взаємодії його приблизно 1011 нейронів і 1014 синаптичних зв'язків. Крім того, існує безліч проблем при проведенні експериментальних досліджень. Мікроскопічні дослідження вимагають ретельно підготовлених зразків (заморозка, зрізи, забарвлення) для отримання маленького двовимірного погляду на велику тривимірну структуру. Техніка мікропроб дозволяє провести дослідження внутрішньої електрохімії вузлів, проте важко контролювати одночасно велику кількість вузлів і спостерігати їх взаємодія. Нарешті, етичні міркування забороняють багато важливих експерименти, які можуть бути виконані тільки на людях. Велике значення мали експерименти над тваринами, проте тварини не володіють здібностями людини описувати свої враження.

Незважаючи на ці обмеження, багато було вивчено завдяки блискуче задуманим експериментів. Наприклад, в [1] описаний експеримент, в якому кошенята вирощувалися в візуальному оточенні, що складається тільки з горизонтальних чорних і білих смуг. Відомо, що певні області кори чутливі до кута орієнтації, тому у цих котів не розвинулися нейрони, чутливі до вертикальних смугах. Цей результат наводить на думку, що мозок ссавців не є повністю «встановленим» навіть на примітивному рівні розпізнавання орієнтації ліній. Навпаки, він постійно самоорганізується, грунтуючись на досвіді.

На мікроскопічному рівні виявлено, що нейрони мають як воозбуждающімі, так і гальмують синапсами. Перші прагнуть до порушення нейрона; останні пригнічують його збудження (див. додаток А). Це наводить на думку, що мозок адаптується або зміною впливу цих синапсів, або створенням або руйнуванням синапсів в результаті впливу навколишнього середовища. Дане припущення залишається поки гіпотезою з обмеженим фізіологічним підтвердженням. Однак дослідження, проведені в рамках цієї гіпотези, привели до створення цифрових моделей, деякі з яких показують чудові здібності до адаптивного розпізнавання образів.



Попередня   60   61   62   63   64   65   66   67   68   69   70   71   72   73   74   75   Наступна

Нейронні мережі Хопфілда і Хеммінга | машина Больцмана | Нейронна мережа Хеммінга | Двонаправлена ??асоціативна пам'ять | Принцип роботи мережі Кохонена | Алгоритм навчання мережі Кохонена | Мережі на зустрічного поширення | вихід Y | Нейронна мережа ART-1 | Процес функціонування мереж ART -1 |

загрузка...
© um.co.ua - учбові матеріали та реферати