УДК 681.324.01
DOI: 10.15587/1729-4061.2022.251637
Розробка методики навчання штучних нейронних мереж для інтелектуа- льних систем підтримки прийняття рішень
К. А. Махді, А. В. Шишацький, О. А. Симоненко, Н. М. Протас, О. О. Троцько, В. С. Кивлюк, А. А. Шульгін, П. М. Стешенко, Е. С. Остапчук, Т. І. Голенковська
Розроблено методику навчання штучних нейронних мереж для інтелекту- альних систем підтримки прийняття рішень. Відмінна особливість запропоно- ваної методики полягає в тому, що вона проводить навчання не тільки синап- тичних ваг штучної нейронної мережі, але й виду та параметрів функції на- лежності. В разі неможливості забезпечити задану якість функціонування штучних нейронних мереж за рахунок навчання параметрів штучної нейронної мережі відбувається навчання архітектури штучних нейронних мереж. Вибір архітектури, виду та параметрів функції належності відбувається із враху- ванням обчислювальних ресурсів засобу та із врахуванням типу та кількості інформації, що надходить на вхід штучної нейронної мережі. Також відмінною особливістю розробленої методики є те, що для обчислення вхідних даних не потрібні попередні розрахункові дані. Розробка запропонованої методики обу- мовлена необхідністю проведення навчання штучних нейронних мереж для ін- телектуальних систем підтримки прийняття рішень, з метою обробки біль- шої кількості інформації, при однозначності рішень, що приймаються. За ре- зультатами дослідження встановлено, що зазначена методика навчання за- безпечує в середньому на 10–18 % більш високу ефективність навчання штуч- них нейронних мереж та не накопичує похибок в ході навчання. Зазначена ме- тодика дозволить проводити навчання штучних нейронних мереж за рахунок навчання параметрів та архітектури, визначити ефективні заходи для підви- щення ефективності функціонування штучних нейронних мереж. Використан- ня зазначеної методики дозволить зменшити використання обчислювальних ресурсів систем підтримки прийняття рішень та виробити заходи, що спря- мовані на підвищення ефективності навчання штучних нейронних мереж; під- вищити оперативність обробки інформації в штучних нейронних мережах.
Ключові слова: штучні нейронні мережі, оперативність обробки інформа- ції, системи підтримки прийняття рішень.
1. Вступ
Системи підтримки прийняття рішень (СППР) стали основою вирішення інформаційно-розрахункових завдань в повсякденному житті так і для вирі- шення досить специфічних (спеціальних завдань). СППР активно застосову- ються при обробці великих масивів даних, забезпечення інформаційної підтри- мки процесу прийняття рішень особами, що приймають рішення. Основу існу- ючих СППР становлять методи штучного інтелекту [1–11].
Not
a reprint
Створення інтелектуальних СППР стало подальшим розвитком СППР кла- сичного типу, основним інструментом яких є штучні нейронні мережі (ШНМ), що еволюціонують. Інтелектуальна система підтримки прийняття рішень (Intelligent Decision-Maker Support System, iDMSS) ‒ інтерактивна комп’ютерна система, призначена для підтримки прийняття рішень у різних сферах діяльно- сті стосовно слабкоструктурованих і неструктурованих проблем, яка ґрунтуєть- ся на використанні моделей і процедур з обробки даних та знань на основі тех- нологій штучного інтелекту.
ШНМ, що еволюціонують, мають як універсальні апроксимуючі властиво- сті. ШНМ, що еволюціонують забезпечують стабільну роботу в умовах нелі- нійності, апріорної визначеності, стохастичності та хаотичності, різного роду збурювань і завад.
Незважаючи на досить успішне їхнє застосування для розв’язку широкого кола завдань інтелектуального аналізу даних, ці системи мають ряд недоліків, пов’язаних з їхнім використанням. Серед найбільш істотних недоліків можна виділити такі:
‒ складність вибору архітектури системи. Як правило, модель, заснована на принципах обчислювального інтелекту, має фіксовану архітектуру. У кон- тексті ШНМ це означає, що нейронна мережа має фіксовану кількість нейронів і зв’язків. У зв’язку із цим, адаптація системи до нових даних, що надходять на обробку, що мають відмінну від попередніх даних природу, може виявитися проблематичним;
‒ утворення “мертвих” нейронів в шарах, що виникають при функціону- ванні ШНМ;
‒ навчання в пакетному режимі та навчання протягом декількох епох ви- магає значних часових ресурсів. Такі системи не є пристосованими для роботи в online режимі з досить високим темпом надходження нових даних на обробку;
‒ багато з існуючих систем обчислювального інтелекту не можуть визначати правила, що еволюціонують, за якими відбувається розвиток системи, а також можуть представляти результати своєї роботи в термінах природньої мови.
Таким чином, актуальним є завдання розробки нових методів (підходів, методик) навчання для ШНМ, які дозволять вирішити зазначені труднощі.
2. Аналіз літературних даних та постановка проблеми
В роботі [3] проведено аналіз властивостей ШНМ, які використовувалися при прогнозуванні концентрації забруднюючих речовин в повітрі. Запропоно- вано використання екстремальної навчальної машини для ШНМ, що забезпечує високу ефективність узагальнення при надзвичайно високій швидкості навчан- ня. До недоліків підходу слід віднести накопичення похибок ШНМ в ході про- ведення обчислень, неможливість вибору параметрів та типу функції належнос- ті, утворення “мертвих” нейронів в ході навчання.
В роботі [4] представлено моделювання адекватності управління банківсь- ким капіталом. В основу зазначеного моделювання покладені трендові моделі прогнозування. Для проведення розрахунків використовується багатошаровий персептрон. Навчання зазначеного персептрону обмежено лише навчанням си-
For reading
only
наптичних ваг, причому тільки активованих нейронів. Інших механізмів нав- чання в зазначеному дослідженні не представлено.
В роботі [5] наведено оперативний підхід з просторового аналізу в морсь- кій галузі для кількісної оцінки та відображення супутніх екосистемних послуг.
До недоліків зазначеного методу слід віднести неможливість гнучкого налаш- тування (адаптації) оціночних моделей при додаванні (виключенні) показників і зміні їх параметрів (узгодженості та значущості показників). Також навчання ШНМ обмежено лише класичним навчанням ваг активних нейронів.
В роботі [6] представлена модель машинного навчання для автоматичної ідентифікації запитів та надання інформаційних служб підтримки, що обміню- ються між членами інтернет-спільноти. Зазначена модель призначена для обро- бки великої кількості повідомлень користувачів соціальних мереж. Недоліками зазначеної моделі є відсутність механізмів оцінки адекватності рішень, що приймаються та велика обчислювальна складність. Навчання обмежено лише навчанням синаптичних ваг ШНМ.
В роботі [7] продемонстровано використання ШНМ для виявлення анома- лії серцевого ритму та інших захворювань серця. В якості методу навчання ШНМ використовується алгоритм зворотного поширення похибки. Недоліками зазначеного підходу є його обмеженість навчанням лише синаптичних ваг, без навчання виду та параметрів функції належності.
В роботі [8] запропоновано використовувати ШНМ для виявлення cхо- дження лавин. В якості методу навчання ШНМ використовується алгоритм зворотного поширення помилки. Недоліками зазначеного підходу є його обме- женість навчанням лише синаптичних ваг, без навчання виду та параметрів фу- нкції належності.
В роботі [9] представлено використання ШНМ для виявлення проблем вияв- лення аномалій в системах домашньої авторизації. В якості методу навчання ШНМ Кохонена використовується алгоритм “переможець отримує все”. Недолі- ками зазначеного підходу є накопичення помилки, що обумовлена наявністю неа- ктивованих та мертвих нейронів в процесі навчання, обмеженість навчанням лише синаптичних ваг, а також необхідність зберігання раніше розрахованих даних.
В роботі [10] представлено використання ШНМ для виявлення проблем виявлення аномалій в енцефалограмі людини. В якості методу навчання ШНМ використовується метод тонкого налаштування параметрів ШНМ. Не- доліками зазначеного підходу є накопичення помилки в процесі навчання, обмеженість навчанням лише синаптичних ваг без навчання виду та параме- трів функції належності.
В роботі [12] представлено використання методів машинного навчання, а саме ШНМ та генетичних алгоритмів. В якості методу навчання ШНМ викори- стовується генетичний алгоритм. Недоліками зазначеного підходу є його обме- женість навчанням лише синаптичних ваг, без навчання виду та параметрів фу- нкції належності.
В роботі [13] представлено використання методів машинного навчання, а саме ШНМ та методу диференційного пошуку. В ході дослідження проведено розробку гібридного методу навчання ШНМ, що заснований на використанні
Not
a reprint
алгоритму зворотного поширення похибки та диференційного пошуку. Недолі- ками зазначеного підходу є його обмеженість навчанням лише синаптичних ваг, без навчання виду та параметрів функції належності.
В роботі [14] проведено розробку методів навчання ШНМ з використанням комбінованої апроксимації поверхні відгуку, який забезпечує найменші похибки навчання і прогнозування. Недоліком зазначеного методу накопичення помилки в ході навчання та неможливість зміни архітектури ШНМ в ході навчання.
В роботі [15] наведено використання ШНМ для оцінки ефективності робо- ти агрегату, використовуючи попередній часовий ряд його продуктивності. Для навчання ШНМ використовуються моделі SBM (Stochastic Block Model) та DEA (Data Envelopment Analysis). Недоліками зазначеного підходу є обмеженість в виборі архітектури мережі, навчання тільки синаптичних ваг.
В роботі [16] наведено використання ШНМ для оцінювання геомеханічних властивостей. В якості методу навчання ШНМ використовується алгоритм зво- ротного поширення помилки. Покращення характеристик алгоритму зворотньо- го поширення помилки досягається за рахунок збільшення навчальної вибірки.
Недоліками зазначеного підходу є його обмеженість навчанням лише синапти- чних ваг, без навчання виду та параметрів функції належності.
В роботі [17] наведено використання ШНМ для оцінки інтенсивності до- рожнього руху. В якості методу навчання ШНМ використовується алгоритм зворотного поширення помилки. Покращення характеристик алгоритму зворо- тнього поширення помилки досягається за рахунок використання пропускних з’єднань між кожним шаром, так що кожен шар викладає лише залишкову фун- кцію щодо результатів попереднього шару. Недоліками зазначеного підходу є його обмеженість навчанням лише синаптичних ваг, без навчання виду та па- раметрів функції належності.
Проведення аналізу наукових праць [1–17] показав, що для навчання шту- чних нейронних мереж використовуються загальновідомі методи навчання. За- значені методи орієнтовані, як правило, на навчання синаптичних ваг або фун- кції належності. Використання відомих алгоритмів (методів, методик) навчання штучних нейронних мереж навіть з покращеними характеристиками не задово- льняє існуючим та перспективним вимогам, що висуваються до них, а саме:
‒ збільшення кількості інформації, що спроможні обробити штучні ней- ронні мережі;
‒ підвищення достовірності прийняття рішення інтелектуальними систе- мами підтримки прийняття рішень;
‒ підвищення швидкості адаптації архітектури та параметрів штучних ней- ронних мереж відповідно до завдань, що виникають;
‒ недопущення тупикових ситуацій під нас навчання штучних нейронних мереж;
‒ забезпечення прогнозованості процесу навчання штучних нейронних мереж;
‒ забезпечення однозначності рішень, що приймаються інтелектуальними системами підтримки прийняття рішень;
For reading
only
‒ забезпечення проведення обчислень великих масивів даних за одну епоху без збереження попередніх розрахунків.
3. Мета та завдання дослідження
Метою дослідження є розробка методики навчання штучних нейронних мереж для інтелектуальних систем підтримки прийняття рішень, яка дозволяє виконувати обробку більшої кількості інформації при однозначності рішень, що приймаються.
Для досягнення мети були поставлені такі завдання:
– провести розробку алгоритма методики навчання штучних нейронних мереж для інтелектуальних систем підтримки прийняття рішень;
– експериментально оцінити ефективність навчання штучних нейронних мереж.
4. Матеріали та методи дослідження
В ході проведеного дослідження використовувалися загальні положення теорії штучного інтелекту – для вирішення задачі навчання штучної нейронної мережі в інтелектуальних системах підтримки прийняття рішень. Тобто теорія штучного інтелекту є основою зазначеного дослідження. В дослідженні вико- ристано удосконалений генетичний алгоритм та штучні нейронні мережі, що еволюціонують. Моделювання проводилося з використанням програмного за- безпечення MathCad 2014 (США) та ПЕОМ Intel Core i3 (США).
Мережа Кохонена [2, 18–24] відноситься до самоорганізуючих мереж. Це означає, що вони не отримують бажаний вихідний сигнал при надходженні вхі- дного навчального вектору, а в результаті навчання мережа розділяє вхідні сиг- нали на класи, таким чином формуючи топологічні карти.
Варто відзначити, що самоорганізуюча карта Т. Кохонена реалізує відо- браження вхідного простору розмірності n у вихідний простір розмірності m.
Самоорганізована карта має дуже просту архітектуру з прямою переда- чею інформації. Крім нульового (рецепторного) шару, вона містить єдиний шар нейронів, який дуже часто називають шаром Кохонена [25–32].
Розглянемо докладніше архітектуру самоорганізуючої карти. На вхід ме- режі надходить n-вимірний вхідний сигнал. Мережа містить єдиний шар з m нейронів, які утворюють на площині прямокутні решітки.
Нейрони характеризуються своїм місцем розташування в мережі. Кожен нейрон шару Кохонена пов’язаний з кожним входом нульового (вхідного) шару прямими зв’язками, а також з усіма іншими нейронами поперечними зв'язками.
На рис. 1 представлена 1D-карта Кохонена.
Not
a reprint
Рис. 1. 1D-карта Кохонена
В процесі навчання сусідні нейрони впливають один на одного сильніше ніж ті, які розташовані далі. Саме латеральні зв'язки в мережі забезпечують збудження одних нейронів і гальмування інших.
Кожен нейрон з шару Кохонена формує зважену суму сигналів
1
, .
i ii
f x w w x При цьому, якщо синапси прискорюють, то wij>0. Якщо ж си- напси гальмуючі, то wij<0.
Враховуючі зазначене, класичною процедурою навчання мережі Кохоне- на є корегування синаптичних ваг, без врахування інших можливостей навчан- ня мережі, таких як вид та параметри функції належності та архітектура мережі.
5. Результати дослідження з розробки методики навчання штучних нейронних мереж
5. 1. Розробка алгоритму методики навчання штучних нейронних мереж На рис. 2 подано запропонований алгоритм навчання штучної нейронної мережі. Удосконалення зазначеного алгоритму навчання полягає в удоскона- ленні процедур 2, 3, 8 розробленого раніше методу навчання штучних нейрон- них мереж [2, 18, 32].
w1
w2
w3
w4
x1
x2
x3
xn
y1
y2
y3
ym
For reading
only
Рис. 2. Алгоритм функціонування та навчання штучної нейронної мережі, що еволюціонує
Коротко наведемо основні етапи реалізації запропонованої методики:
ПОЧАТОК
Введення
вихідних даних 1
КІНЕЦЬ Визначення ваг нейронів 2
Корекція ваг нейрону та визначення функції
сусідства 3
Формування першого кластеру 4
Перевірка значення порогу 5
Перевірка спроможностей
архітектури 6
Корегування структури та параметрів
мережі
8 Ні
Так Архітектура
і параметри відповідають?
Not
7a reprint
Крок 1. Початковим етапом є ініціалізація початкових значень синаптич- них ваг.
Крок 2. Визначення ваг нейронів.
Крок 3. Корекція ваг нейрону та визначення функції сусідства.
Крок 4. Формування першого кластеру.
Крок 5. Перевірка значення порогу.
Крок 6. Перевірка спроможностей архітектури щодо обробки кількості ін- формації, що надходить на її вхід.
Крок 7. Еволюція архітектури системи.
Опишемо детально кроки 2, 3 та 8. Сутність удосконалення полягає в гене- тико-конкурентному навчанні, що доповнено введенням різних стратегій гене- тичної оптимізації вагових коефіцієнтів “мертвих” нейронів, розташованих на вихідному шарі мережі. Також, додатково враховується тип невизначеності на- вчальної вибірки (підхід детально наведений в дослідженні [32]). Запропонова- на стохастична оптимізація дозволяє скоротити кількість епох навчання мережі Кохонена при досягненні заданого максимального значення векторної помилки квантування та при побудові центроїдів додатково враховуються коефіцієнти невизначеності (повна невизначеність, часткова невизначеність, повна поінфо- рмованість) при виборі початкових значень центрів кластерів.
Перед початком роботи алгоритму навчання мережі Кохонена вхідні век- тори попередньо нормалізуються [33, 34]:
2 ,
i ii
i i
x x
x x x
1,2..., .
i N (1)
Сам алгоритм навчання мережі Кохонена може бути описаний як послі- довність кроків:
Крок 1: Введення вихідних даних. На даному етапі відбувається ініціаліза- ція початкових значень синаптичних ваг wij=0.
Одним з часто застосовуваних способів ініціалізації є присвоювання си- наптичним вагам значень, рівних випадково обраним векторам з безлічі спосте- режень.
Крок 2: Визначення ваг нейронів. На даному етапі на вхід системи пода- ється нормалізований вектор сигналів x та вибирається вектор ваг (нейрон), найближчий до x тобто вектор, для якого Евклідова відстань до x буде найме- ншим:
arg min j ,
j x w j=1, 2, ..., .l (2)
Відбувається послідовність таких дій:
2. 1. Задання параметрів мережі Кохонена (розміру вихідної мережі I×J, числа епох навчання T≥1, початкової ширини околиці нейронів σ0, коефіцієнтів τ, κ0, η).
For reading
only
2. 2. Занулення лічильника поточних ітерацій t:=0, ініціалізація вагових ко- ефіцієнтів wij(1≤i≤I,1≤j≤J) нейронів вихідної решітки випадковим чином, підго- товка навчальних даних
xk Mk1 вибір стратегії оптимізації G' вагових коефіціє- нтів нейронів вихідної решітки.Також, на зазначеному етапі відбувається обчислення поточної ширини країв центроїдів:
0 exp1
t t
T для Т>1 та
0 t для Т=1. (3)
Крок 3: Корекція ваг нейрону та визначення функції сусідства.
Позначимо wij ваговий вектор нейрона, який має координати (i, j) на вхід- ній решітці мережі Кохонена (i ‒ номер строки, j ‒ номер стовбця). Процес нав- чання направлений на мінімізацію половинної суми квадратів відстаней між вхідними векторами
xk kM1 навчальної вибірки та векторами нейронів вихідної решітки (1≤i≤I,1≤j≤J).
112
11 ,...,
1
,..., 1 , min ,
2
k k IJ
M
IJ i j k w w
k
E w w D w x (4)
де D w x
,
wx
T wx
‒ функція відстаней між парою векторів в евклі- довому просторі,
: 1,..., 1,...,
1 1
, arg min ,
n
FIJ I J
k k ij k
i I j J
i j D w x ‒ координати нейрона на вихідному шарі мережі, ваги якого найбільш близькі до вектору xk.
Величина
11
1 E w ,...,wIJ ,
M є похибкою векторного квантування [24]. Ви- користовуючи метод градієнтного спуску, отримуємо наступну формулу для оновлення вагових векторів: wij(1≤i≤I,1≤j≤J):
1
,ij ij ij
w t w t w
11
1
,...,
, ,
ij IJ
M IJ k k ijij k
E w w
w i j F x x w
w (5)
Not
a reprint
де κ ‒ деяка позитивна константа або функція з областю значень (0, 1], що задає швидкість навчання. Зазначимо, що у (5) для оновлення кожного конкретного вагового вектору wij використовується тільки частина векторів із навчальної ви- бірки з найменшою нев'язкою між кожним із них wij. Іншими словами, вектор модифікується тоді і лише тоді, коли він є найближчим до навчального вектору xk у рамках заданого метричного простору. Причому виправлення вектору wij
здійснюється на величину, прямо пропорційну різниці між вхідним вектором xk
і ваговим вектором wij. Тим самим між нейронами на вихідній решітці створю- ється конкуренція за право бути відібраними у найближчі по відношенню до вхідного вектору xkкандидати; нейрон, що задовольняє даній вимозі, називаєть- ся нейроном-переможцем з координатами
ik, jk . Зазначимо, що у разі норму- вання векторів wijі xk мінімізація E(w11,…,wIJ) рівносильна максимізації суми їх скалярних добутків:
11
11,...,1 1
,..., 1 max .
2
k k k k
k k IJ
M T M
T
IJ i j k i j k w w i j k
k k
E w w w x w x w x M (6)
Для зменшення конкуренції між нейронами вводиться правило, що дозво- ляє оновлювати не тільки ваги нейрона-переможця, але й інших нейронів, що лежать у його околі. З цією метою раніше введена характеристична функція [(i, j=FIJ)(xk)] замінюється експоненційною функцією Гауса
2, exp 2 ,
2
k k
i i j j
i j значення якої відображає загасаючу залеж- ність зміни нейронних ваг зі збільшенням відстані від нейронів до нейрона- переможця на рівні їх координат на вихідній решітці. Чим ближче нейрон роз- ташовується до нейрона-переможця, тим з більшим мультиплікативним коефі- цієнтом оновлюються його ваги. Параметр а називається ефективним шириною околиці [35‒37] нейрона-переможця, який може бути інтерпретований як пото- чне значення радіуса оточення нейрона-переможця. Особливістю алгоритму навчання мережі Кохонена є зменшення значення σ з часом:
0 exp ,1
t t
T (t=0,…,T–1). Тут параметр σ0 задає початкове значен- ня радіусу околу нейрона-переможця, яке, як правило, встановлюється в
2 2
.
I J Параметр τ підбирається таким чином, щоб на останній епосі навчан- ня оновленню піддавалися якнайменше число вагових векторів нейронів або зовсім лише один вектор нейрона-переможця. Тим самим було τ=ln(σ0). Коефі- цієнт швидкість навчання обирається таким чином, щоб на початкових епохах алгоритму вагові вектори більшості нейронів оновлювалися з найбільшим тем- пом. Далі в міру збільшення кількості епох та звуження ширини околиці здійс- нювалася модифікація дедалі меншої кількості векторів нейронів з більш низь- кою швидкістю. Використання такого прийому дозволяє будувати кластери, чиї
For reading
only
елементи спочатку пристосовуються під загальні характеристики апроксимую- чої множини, а потім уточнюють його окремі особливості. Найбільш пошире- ними представниками з такою характерно спадною залежністю є функції κ(t)=κ0(t+1)-1, κ(t)=κ0·exp{-ηt} [35‒37].
Сутність удосконалення процедури 3 полягає у використанні алгоритму конкурентного навчання мережі Кохонена, доповнений запровадженням гене- тичних операторів.
3. 1. Ініціалізація поточного набору активних нейронів V+:=Ø .
3. 2. Виконання кроків 3. 2. 1–3. 2. 8 кожного вектору xk (k=1, …, M).
3. 2. 1. Нормування вагових коефіцієнтів нейронів wij за допомогою поком- понентного ділення на wij
wij 0 .
3. 2. 2. Нормалізація вектору xk за допомогою покомпонентного ділення на
0
k k
x x .
3. 2. 3. Обчислення відстаней між вектором xk та кожним ваговим вектором wijнейрона: dijk D x w
k, ij
nl1
xkl wijl
2.3. 2. 4. Визначення координат нейрона-переможця для вектору xk:
11
, arg min .
k k IJ k ijk
i I j J
i j F x d (7)
3. 2. 5. Визначення поточного околу нейрона-переможця
ik, jk :
2
2 2
,
, 1 .
1
k k
k k
V V i j i I
i j i i j j t
j J
(8)
3. 2. 6. Модифікація вагових коефіцієнтів нейронів із координатами
i j, V:wij:wij
t i j t, ,
xk wij
, де функція
2
, , exp 2 .
2
k k
i i j j
i j t
t
3. 2. 7. Розширення набору активних нейронів: V:V
ik, jk .3. 2. 8. Застосування стратегії генетичної оптимізації G' до ваг wij для
i j, V V†, \
ik, jk
.3. 3. Застосування стратегії генетичної оптимізації G' до ваг wij для
, †, † , \ .
M M
i j
i j V V V V
3. 4. Збільшення лічильника поточних ітерацій: t:t+1.
Not
a reprint
3. 5. Перехід до наступного кроку 3. 4 при виконанні умови tT, інакше перехід до кроку 2.
3. 6. Виключення “мертвих” нейронів з координатами
i j ,
V† на вихід-ній решітці, де V†
i j, k
1,...,M
i j, FIJ
xk
.3. 7. Обчислення порога активації нейронів, що залишилися, з координата- ми
i , j
V†:hi ,j 1min k M
di j k 1
i , j
FIJ
xk
.Крок 6. Перевірка спроможностей архітектури щодо обробки кількості інформації, що надходить на її вхід з оптимізацією архітектури штучної ней- ронної мережі.
Після модифікації вагових коефіцієнтів при пред'явленні навчального век- тору (п. 3. 2. 8) або після виконання кількох епох конкурентного навчання (п. 3. 3) додатково застосовується стохастична оптимізація. Зазначена оптимі- зація заснована на генетичному алгоритмі стохастична оптимізація вагових ко- ефіцієнтів певних нейронів вихідний решіток карти Кохонена. З цією метою ваги кожного нейрона, що знаходиться на краях поточного нейрона-переможця і жодного разу не активованого, видаються як послідовність генів, що виступа- ють у ролі мінімальної одиниці для вхідного аргументу оператора схрещування (О1). В результаті виконання цього оператора формується пара нових хромосом, у яких переставлені місцями довільно вибрані ділянки ген хромосом. Кожен ген є набором бітів, який можна розглядати як окремий компонент вектору, асоці- йованого з відповідним нейроном-переможцем або одним з нейронів, що ле- жать у його околиці. При використанні оператора мутації (О2) здійснюється пе- рестановка пари випадково вибраних бітів усередині одного гена, при викорис- тання оператора інверсії (О3) відбувається інвертування значення випадково вибраного біта. Обидва ці оператори застосовуються тільки до частини мантиси 64-бітного "речового гена". Для імітації процесу еволюції нейронів було розро- блено кілька способів генерації породження поколінь. Перший підхід А1 поля- гає в застосуванні операторів схрещування, мутації або інверсії довільних ней- ронів, що знаходяться в поточній близькості від нейрона-переможця. Другий підхід А2 заснований на геометричних міркуваннях про взаємне розташування нейронів на вихідній решітці щодо нейрона-переможця. Оскільки ваговий век- тор кожного нейрона, рівновіддаленого від нейрона-переможця, модифікується з однаковим коефіцієнтом в результаті виконання обраного алгоритму навчан- ня, то оператор схрещування пропонується застосовувати саме до таких нейро- нів. Третій підхід A3 передбачає застосування оператора схрещування тільки до найбільш пристосованих особин, у той час як до нейронів, що залишилися, буде використовуватися оператор мутації або інверсії. Тут у ролі функції пристосо- ваності було вибрано зворотне значення величини середнього відхилення при розпізнаванні даним нейроном з ваговим коефіцієнтом wijелементів навчальної
xk Mk1 вибірки
1 1
1:
MM k k ij
k k ij
x w
x M для п. 3. 5 або, ijk xk wij 1
For reading
only
для п. 3. 2. 8. Крім того, було розроблено кілька стратегій для вибору того або іншого способу генерування нейронів: фіксований вибір G1 визначеного підхо- ду, послідовний чи випадковий перебір усіх підходів G2 та вибір, заснований на механізмі рулетки з [32]. У стратегії G3, згенероване за допомогою обраного підходу потомство нейронів, є більш пристосованим у порівнянні з попередни- ками. Тоді ймовірність вибору такого підходу в майбутньому збільшується по- рівняно з рештою підходів, інакше ймовірність його вибору зменшується.
Кожен із підходів А1, А2, А3 застосовується для створення двох дочірніх карт Кохонена, в яких змінам піддаються тільки нейрони з навколишнього се- редовища нейрона-переможця батьківської карти Кохонена. Ці підходи можуть бути описані як послідовність таких дій, в яких різним є лише крок 3:
Крок 6. 1. V:=Ø.
Крок 6. 2 Довільний вибір оператора
1, 2,3 ; 3
1 . A
O ii
Крок 6. 3 Застосування оператора Oi до чергового нейрона з координата- ми
i j ,
V† \V з поточної околиці V* нейрона-переможця (якщо Оі* ‒ опера- тор схрещування, необхідно додатково вибрати ще один нейрон з координата- ми
i , j
3A2 , відмінними від (i′, j′) оператора схрещування до пари нейронівз координатами
i j ,
V† \V та
,
, , \ \ ,
2
2
2
2k M k M k M k M
i j V V i j i i j j i i j j
i j U i j з околу V* нейрона-
переможця з координатами
ik M , jk M
(якщо U=Ø, то необхідно застосувати двічі оператор мутації або інверсії до нейрона з координатами (i′, j′)
3A3 . Ви- користання оператора схрещування до нейронів з координатами
†
, \
, arg max
ij
i j V V
i j k та
, \ \ ,
, arg max
ij
i j V V i j
i j k (якщо
† †
\ \ , # \ # ,
V V i j V V K V то необхідно використати двічі опера- тор мутації або інверсії до нейрона з координатами (i′, j′), де 0≤K≤1 ‒ константа, що визначає відносне число нейронів, до яким повинен застосовуватися лише оператор мутації чи інверсії).
Крок 6. 4. додавання двох нових згенерованих за допомогою оператора Оі*
нейронів по одному в кожну з двох дочірніх карт Кохонена із збереженням ко- жного з цих нейронів у позиції (i′, j′) на вихідній решітці.
Крок 6. 5 Додавання координат (i′, j′) до множини V V: :V
i j ,
.Крок 6. 6. Перехід до кроку 6. 2, якщо V V† інакше зупинка.
Кожна зі стратегій G1, G2, G3 маніпулює вибором підходів А1, А2, А3. Стра- тегія G1 є найпримітивнішою з аналізованих і полягає у виборі одного з трьох підходів А1, А2, А3 на кроці 6. 1 алгоритму генетико-конкурентного навчання мережі Кохонена.
Отже, якщо є N спостережень та m кластерів з центроїдами сj, розрахунки всіх належностей та скореговані координати центроїдів оцінюються згідно від-
Not
a reprint
ношення:
1 1
2 1
1
1
2 1
1
1 1
1 ,
,
,
.
j
j N
j k
j N
j k
N
j j
k
j N
j k M
k ij
k ij
x k c u k
u k x k c
u k
u k x k c k
u k
x w
k M (9)
Система рівнянь (9) представляє собою по суті пакетний алгоритм оброб- ки інформації так, що при надходженні спостереження x(N+1) усі розрахунки повинні бути проведені заново. При достатньо високій частоті надходження даних підхід може виявитися неефективним.
З цією метою потрібно провести розробку рекурентних процедур, що не потребують зберігання відпрацьованих раніше даних. Реалізувати зазначені ре- курентні процедури можна на основі двошарової адаптивної нейро-нечіткої ме- режі з такою архітектурою.
Перший скритий шар мережі утворений звичайними нейронами Кохонена
K,
Nj пов’язані між собою латеральними зв’язками, за якими реалізується про- цес конкуренції. Вихідний шар мережі, утворений вузлами Nuj, призначений для розрахунку рівнів належності кожного спостереження x(k) кожному j-му кластеру, j=1, 2, 3, …, m. Для налаштування центроїдів кластерів використову- ється рекурентна процедура самонавчання, яка має вигляд [10]: