Головна

Використання навчання

  1. Способи введення додаткової інформації, в тому числі використання полів, що настроюються і кодів структур.
  2. I. Акумуляція II. Використання
  3. II. Гра в системі трансляції діяльності та навчання
  4. III. Методичні вказівки для студентів заочної форми навчання з виконання контрольної роботи
  5. Iquest; Використання панелі інструментів Бази даних та Запиту в режимі таблиці
  6. А) Технічні засоби навчання
  7. Азновідності математичних моделей і їх використання.

Штучна нейронна мережа навчається за допомогою деякого процесу, що модифікує її ваги. Якщо навчання успішно, то пред'явлення мережі безлічі вхідних сигналів призводить до появи бажаної множини вихідних сигналів. Є два класи навчальних методів: детерміністський і стохастичний.

Детерміністський метод навчання крок за кроком здійснює процедуру корекції ваг мережі, засновану на використанні їх поточних значень, а також величин входів, фактичних виходів і бажаних виходів. Навчання персептрона є прикладом подібного підходу детермініста.

Стохастичні методи навчання виконують псевдовипадкові зміни величин ваг, зберігаючи ті зміни, які ведуть до поліпшень. Щоб побачити, як це може бути зроблено, розглянемо малюнок 16, на якому зображена типова мережа, в якій нейрони з'єднані за допомогою ваг. Вихід нейрона є тут зваженою сумою його входів, яка, перетворена за допомогою нелінійної функції (подробиці див. Гл. 2). Для навчання мережі може бути використана наступна процедура:

1) вибрати ваги випадковим чином і скорегувати їх на невелике випадкове Пред'явити безліч входів і обчислити виходять виходи;

2) порівняти ці виходи з бажаними виходами і обчислити величину різниці між ними. Загальноприйнятий метод полягає в знаходженні різниці між фактичним і бажаним виходами для кожного елемента навченою пари, зведення різниць в квадрат і знаходження суми цих квадратів. Метою навчання є мінімізація цієї різниці, часто званої цільової функцією;

3) вибрати ваги випадковим чином і скорегувати їх на невелике випадкове значення. Якщо корекція допомагає (зменшує цільову функцію), то зберегти її, в іншому випадку повернутися до первісного значення ваги;

4) повторювати кроки з 1 до 3 до тих пір, поки мережа не буде навчена в достатній мірі.

Малюнок 16 - Двошарова мережа без зворотних зв'язків

Цей процес прагне мінімізувати цільову функцію, але може потрапити, як в пастку, в невдале рішення. На малюнку 17 показано, як це може мати місце в системі з єдиним вагою. Припустимо, що спочатку вага взята рівним значенню в точці А. Якщо випадкові кроки по вазі малі, то будь-які відхилення від точки А збільшують цільову функцію і будуть відкинуті. Краще значення ваги, прийняте в точці В, ніколи не буде знайдено, і система буде спіймана в пастку локальним мінімумом, замість глобального мінімуму в точці В. Якщо ж випадкові корекції ваги дуже великі, то як точка А, так і точка В будуть часто відвідувати , але те ж саме буде мати місце і для кожної іншої точки. Вага буде змінюватися так різко, що він ніколи не встановиться в бажаному мінімумі.

Малюнок 17 - Проблема локальних мінімумів

Корисна стратегія для уникнення подібних проблем складається у великих початкових кроках і поступовому зменшенні розміру середнього випадкового кроку. Це дозволяє мережі вириватися з локальних мінімумів і в той же час гарантує остаточну стабілізацію мережі.

Пастки локальних мінімумів докучають інстанціям алгоритмам навчання, заснованим на пошуку мінімуму, включаючи персептрон і мережі зворотного поширення, і представляють серйозну і широко поширену трудність, якої часто не помічають. Стохастичні методи дозволяють вирішити цю проблему. Стратегія корекції ваг, яка змушує ваги приймати значення глобального оптимуму в точці В, можлива.

Як пояснює аналогією припустимо, що на малюнку 17 зображено кульку на поверхні в коробці. Якщо коробку сильно потрясти в горизонтальному напрямку, то кулька буде швидко перекочуватися від одного краю до іншого. Ніде не затримуючись, в кожний момент кулька буде з рівною імовірністю знаходитися в будь-якій точці поверхні.

Якщо поступово зменшувати силу струшування, то буде досягнута умова, при якому кулька буде на короткий час «застрявати» в точці В. При ще більш слабкому струшуванні кулька буде на короткий час зупинятися як в точці А, так і в точці В. При безперервному зменшенні сили струшування буде досягнута критична точка, коли сила струшування достатня для переміщення кульки з точки А в точку в, але недостатня для того, щоб кулька могла видертися з в в А. Таким чином, остаточно кулька зупиниться в точці глобального мінімуму, коли амплітуда струшування зменшиться до нуля.

Штучні нейронні мережі можуть навчатися по суті тим же самим чином за допомогою випадкової корекції ваг. Спочатку робляться великі випадкові корекції із збереженням тільки тих змін ваг, які зменшують цільову функцію. Потім середній розмір кроку поступово зменшується, і глобальний мінімум зрештою досягається.

Це сильно нагадує відпал металу, тому для її опису часто використовують термін «імітація відпалу». У металі, нагрітому до температури, що перевищує його точку плавлення, атоми знаходяться в сильному безладному русі. Як і у всіх фізичних системах, атоми прагнуть до стану мінімуму енергії (єдиного кристалу в даному випадку), але при високих температурах енергія атомних рухів перешкоджає цьому. У процесі поступового охолодження металу виникають все більш низькоенергетичні стану, поки, зрештою, не буде досягнуто найнижча з можливих станів, глобальний мінімум. У процесі відпалу розподіл енергетичних рівнів описується наступним співвідношенням:

P(e) = Exp (-e/kT); (20)

де Р(е) - Ймовірність того, що система знаходиться в стані з енергією е;

k - Постійна Больцмана;

Т - Температура за шкалою Кельвіна.

При високих температурах Р (е) наближається до одиниці для всіх енергетичних станів. Таким чином, високоенергетичне стан майже настільки ж ймовірно, як і низькоенергетичний. У міру зменшення температури ймовірність високоенергетичних станів зменшується в порівнянні з низькоенергетичними. При наближенні температури до нуля стає дуже малоймовірним, щоб система перебувала в високоенергетичному стані.




багатошарова мережа | прохід вперед | Зворотний прохід. Підстроювання ваг вихідного шару | Підстроювання ваг прихованого шару | імпульс | структура мережі | шари Кохоненом | шар Гроссберга | Попередня обробка вхідних векторів | Вибір початкових значень вагових векторів |

© um.co.ua - учбові матеріали та реферати