УДК 004.8
DOI: 10.15587/1729-4061.2021.242795
Розробка класифікатора на основі багатошарового персептрону з використанням генетичного алгоритму та дерева розв’язків CART Л. М. Добровська, О. К. Носовець
Проблема розробки універсальних класифікаторів біомедичних даних, зок- рема тих, які характеризують наявність великої кількості параметрів, неточ- ність та невизначеність, є актуальною. Багато досліджень спрямовано на ро- зробку методів аналізу цих даних, серед них є методи на основі нейронної ме- режі (НМ) у вигляді багатошарового персептрону (БП) з використанням ГА.
Розглядається питання застосування еволюційних алгоритмів (ЕА) для налаштування і навчання НМ.
Теорії НМ, генетичних алгоритмів (ГА) та Дерев рішень перетинаються та проникають одна в одну, постійно з'являються нові розвинені НМ та їх за- стосунки.
Розглянуто приклад завдання, яке вирішується за допомогою ЕА. Його мета – розробити та дослідити класифікатор для діагностики захворювань на рак молочної залози, одержаний шляхом поєднання можливостей багатошаро- вого персептрону з використанням генетичного алгоритму (ГА) та Дерева розв’язків CART.
Встановлено можливість вдосконалення класифікаторів біомедичних да- них у вигляді НМ на основі ГА шляхом застосування процесу відповідної підго- товки біомедичних даних із використанням Дерева розв’язків CART.
Отримані результати дослідження свідчать про те, що ці класифікатори показують найвищу ефективність на множині тестування та при мінімаль- ному скороченні Дерева розв’язків; збільшення кількості скорочень зазвичай по- гіршує результат моделювання. На двох наборах даних на множині тестуван- ня точність моделювання склала 83–87 %.
Проведені експерименти підтвердили ефективність запропонованого ме- тоду синтезу НМ і дозволяють рекомендувати його для використання на практиці при обробці наборів даних для подальшої діагностики, прогнозування або розпізнавання образів.
Ключові слова: нейронна мережа, багатошаровий персептрон з викорис- танням генетичного алгоритму, деревo розв’язків CART.
1. Вступ
Дослідники визнали нейронні мережі (НМ) як інструмент для вирішення багатьох проблем, пов'язаних з біомедициною та системою охорони здоров'я.
Серед напрямів застосування НМ в системі охорони здоров'я можна виділити такі: обробка біомедичних сигналів, діагностика захворювань, допомога медич- ним системам під час підтримки прийняття рішень.
Not
a reprint
Нейронні мережі «здатні вивчати зв'язок між відображенням вхід-вихід на заданій вибірці даних без будь-яких попередніх знань або припущень про ста- тистичний розподіл даних. Ця здатність до навчання на даних без будь-яких ап- ріорних знань робить НМ придатною розв’язувати практичні завдання класифі- кації і регресії. У багатьох біомедичних додатках завдання класифікації і регре- сії складають важливу і невід'ємну частину. Крім того, НМ за своєю суттю є нелінійними, що робить їх більш практичними для точного моделювання скла- дних об’єктів (або структур) даних» [1, 2].
Теорії НМ, генетичних алгоритмів (ГА), нечіткої логіки та Дерев рішень перетинаються та проникають одна в одну, постійно з'являються нові розвинені НМ та їх застосунки. Дослідження НМ, що еволюціонують, роблять розробку НМ більш прийнятною і дозволяють краще відобразити переваги НМ у велико- масштабних і складних мережах.
Інтеграція ГА і НМ в рамках гібридної системи, призначеної для вирішен- ня конкретного завдання, реалізує нейроеволюційний підхід до навчання та на- лаштування НМ. Вона не тільки робить НМ здатними до навчання і розвитку, але може вирішити деякі проблеми, що існують при проєктуванні і реалізації НМ, підвищуючи їх продуктивність.
Розробка і реалізація НМ на основі ГА стали важливим напрямком дослі- джень і розвитку теорії НМ [3–5].
Дослідження проблем інтеграції ГА і НМ показали, що відповідні теорії та методи потребують поліпшення і стандартизації, а прикладні дослідження пот- ребують підсилення.
Проблема розробки універсальних класифікаторів біомедичних даних зага- лом та діагностичних даних, зокрема тих, які характеризують наявність великої кількості параметрів, неточність та невизначеність, є актуальною. Дослідження спрямовані на розробку методів аналізу цих даних, серед них є методи на основі мережі у вигляді багатошарового персептрону (БП) з використанням ГА.
Використання ГА для пошуку початкових значень ваги НМ перед застосу- ванням методів на основі градієнта є вигідним для задач класифікації на основі контрольованого навчання. Генетичні алгоритми є процедурами пошуку, засно- ваними на механізмах природного відбору та успадкування; в них використову- ється еволюційний принцип виживання найбільш пристосованих особин (хро- мосом). Генетичні алгоритми відрізняються від традиційних методів оптиміза- ції такими базовими елементами, зокрема, ГА:
1) обробляють не значення параметрів завдання, а їх закодовану форму;
2) здійснюють пошук рішення виходячи не з однієї точки, а з деякої попу- ляції точок;
3) використовують тільки цільову функцію (функцію пристосованості), а не її похідні або іншу додаткову інформацію;
4) застосовують ймовірнісні, а не детерміновані правила вибору. Перера- ховані властивості, операції на популяціях, використання мінімуму інформації про завдання та рандомізація операцій призводять в результаті до стійкості ГА і до їх переваг над іншими технологіями.
For reading
only
Питання щодо застосування еволюційних алгоритмів до НМ ще не до кін- ця консолідоване, хоча перші теоретичні дослідження почалися ще на початку 90-х років ХХ ст. На разі необхідно постійно проводити адаптацію моделей, щоб упоратися з непостійними, варіативними та динамічними системами. Це спонукає до пошуку більш перспективних систем.
Актуальним є вирішення питань, пов'язаних з проблемою розробки класи- фікаторів біомедичних даних у вигляді НМ на основі ГА, які характеризують наявність великої кількості параметрів, неточність та невизначеність. Результа- ти таких досліджень дозволять отримати ефективні системи для їхнього засто- сування в системі охорони здоров'я.
2. Аналіз літературних даних і постановка проблеми
Побудова НМ на основі генетичного алгоритму підвищує точність при од- ночасному зменшенні часу затраченого на вирішення завдань. Результати од- них з перших досліджень в даному напрямку наведені в роботі [6], де наведені результати створення такої мережі для автоматизації токарної обробки в оброб- ній промисловості. Запропонований підхід є універсальним та застосовується дослідниками. Сучасні дослідні розробки НМ на основі ГА ведуться в основ- ному за такими трьома аспектам: оптимізація вагових коефіцієнтів, оптимізація архітектури та правил навчання НМ.
В роботі [7] показано, що для визначення значень ваги НМ для фіксованої топології розроблена велика кількість алгоритмів, більшість з яких зазвичай пот- рапляють у локальний оптимум. Отримані результати значною мірою залежать від параметрів навчання та початкових значень ваги, а також від топології мережі.
Наприклад, у випадку БП, який навчається за допомогою алгоритму зворотного поширення або його модифікацій, необхідно встановити рівень навчання, почат- кові значення ваги, кількість прихованих шарів та нейронів у кожному з них.
Оптимізація значень ваги з'єднань перетворюється в глобальний метод адаптивного навчання. Навчання за допомогою ГA дозволяє визначити набір значень вагових коефіцієнтів, який наближається до глобального оптимуму без необхідності розрахунку градієнту; індивідуальну ж придатність “хромосоми”
можна визначити як похибку між очікуваним і фактичним виходом мережі. За- звичай, ефективність гібридного навчання перевершує методи навчання, в яких використовується тільки навчання БП.
Існує велика кількість публікацій присвячена даному напряму. Наприклад, в роботі [7] розглянуто підхід до оптимізації коефіцієнтів мережі шляхом дос- лідження варіацій операторів, а в роботі [8] запропоновано нову модель НМ з оптимізованими початковими значеннями ваги та порогами, що пов’язані між собою. В даній роботі також запропоновані й інші підходи, що дозволяють під- вищити точність та ефективність прогнозування.
Архітектура НМ включає в себе різну інформацію (наприклад, кількість прихованих шарів, кількість нейронів, функції активації шарів тощо). Дослід- ники розглядають НМ як проблему пошуку архітектури, використовуючи точ- ність навчання та здатність до узагальнення в якості стандарту оцінки, щоб знайти архітектуру з найкращою продуктивністю в архітектурному просторі.
Not
a reprint
Основні дослідження з оптимізації архітектури мережі ведуться в двох на- прямках. Перший з них, це навчання з відкладеним підкріпленням, який поля- гає у тому, що кожен компонент архітектури розглядається як дія, а послідов- ність таких дій визначає загальну структуру мережі, точність якої використову- ється як винагорода. Детально такий підхід розглянуто в роботах [9, 10].
Як показано в [9], згорткові НМ та пов'язані з ними гіперпараметри, зазви- чай варіюються в залежності від поставленого завдання. Розробка архітектур для таких мереж є складним завданням, що потребує значних часових затрат, що однак, не гарантує отримання оптимальної структури мережі. В свою чергу, використання навчання з відкладеним підкріпленням, дозволяє автоматизувати підбір моделей НМ, що значно підвищує якість класифікації. Один з прикладів практичного застосування даного методу наведено в роботі [10]. Авторами за- пропоновано чотири варіанти ГА, що використані для навчання моделі глибо- кої НМ для вирішення задачі знаходження виходу з лабіринту. Кожен з них був проаналізований на переваги чи недоліки певних операторів, однак всі вони по- казали високу ефективність у вирішенні поставленої задачі.
Другий підхід реалізує пошук шляхом послідовних мутацій та повторних комбінацій компонентів, в результаті яких відбираються найбільш ефективні архітектури, які використовуються для продовження еволюційного процесу.
Прикладом такого підходу є роботи [11, 12].
Авторами [11] наведено алгоритм метамоделювання, що застосовується для автоматичної генерації високоефективних архітектур НМ. Навчальний агент навчається послідовно вибирати шари НМ за допомогою Q-навчання із жадібною стратегією дослідження та досвідом повторення. Агент досліджує ве- ликий, але обмежений простір можливих архітектур та ітеративно відкриває конструкції з покращеною продуктивністю у навчальному завданні.
В роботі [12] використані існуючі методи нейроеволюції для створення ав- томатизованого методу CoDeepNEAT (Computing Deep NeuroEvolution of Aug- menting Topologies) для оптимізації архітектур глибокого навчання шляхом еволюції. Переваги еволюційного підходу показані на прикладі створення дода- тку для підпису зображень у режимі реального часу. Мережа шукає архітекту- ри, які навчаються інтегрувати зображення та текст для створення підписів, до яких незрячі користувачі можуть отримати доступ за допомогою існуючих про- грам зчитування з екрана.
Обидва підходи виконують пошук у просторі дискретної архітектури. Од- нак безпосередній пошук найкращої архітектури в дискретному просторі нее- фективний з огляду на експоненціальне розширення простору пошуку із збіль- шенням кількості варіантів архітектур.
Зростає кількість альтернативних підходів. Так, у статті [13] наведено еволю- ційну стратегію ELeaRNT (Evolutionary Learning of Rich Neural Network Topologies), яка формує різні топології НМ. Такий вид топологій до кінця не ви- вчений у літературі. Результати експериментів доводять, що в завданнях неліній- ної регресії алгоритм ELeaRNT може автоматизовано будувати топології НМ, зда- тні перевершувати класичні моделі нейронних мереж, розроблені вручну.
For reading
only
В роботі [14] пропонується оптимізувати архітектуру мережі шляхом відо- браження варіантів структур НМ у безперервному векторному просторі та про- ведення оптимізації в цьому просторі градієнтним методом.
Оптимізацію правил навчання можна розглядати як самоналагоджуваль- ний процес автоматичного пошуку нових правил навчання (самоадаптація пра- вил навчання). Розробка алгоритмів в основному залежить від архітектури ме- режі, тому важко розробити правило навчання, коли недостатньо попередніх знань про архітектуру мережі. Крім того, під час навчання нейронної мережі і швидкість її навчання значною мірою залежить від її швидкості навчання.
В роботі [15] пропонується удосконалення баєсівського підходу до регуля- ції НМ з прямим зв’язком. Байєсівський підхід привабливий тим, що забезпечує автоматичне визначення параметрів регуляризації. В цій роботі показано, що вдосконалений байєсівський підхід працює ліпше в порівнянні з класичним пі- дходом регуляризації НМ. Однак час затрачений на класифікацію за запропо- нованим підходом є значно більший, ніж для інших мереж.
Для розробки правил навчання НМ можна використовувати ГА. В роботі [16]
запропоновано метод вибору неоптимальних темпів навчання шляхом еволюцій- ної адаптації темпів навчання для кожного рівня на кожному кроці навчання.
Дослідження проблем інтеграції ГА і НМ показали, що відповідні теорії та методи потребують поліпшення і стандартизації, а прикладні дослідження пот- ребують підсилення. До методів підсилення досліджень пропонується застосу- вання попереднього аналізу даних на основі Дерева класифікації CART (classi- fication and regression tree). Тому слід вважати за доцільне дослідження, що присвячено способу розробки НМ на основі ГА шляхом поєднання оптимізації вагових коефіцієнтів НМ та застосування попереднього аналізу даних на основі Дерева класифікації CART. Це скорочує кількість входів НМ та підвищує точ- ність моделювання. Це дозволяє вдосконалити такі класифікатори біомедичних даних шляхом застосування процесу відповідної підготовки даних для пошуку архітектури НМ з найкращою продуктивністю в архітектурному просторі.
3. Мета і завдання дослідження
Метою роботи є розробка класифікатора, одержаного шляхом поєднання можливостей БП, що навчається за допомогою ГА. Розглянути можливості цьо- го класифікатора даних про захворювання на рак молочної залози (до даних за- стосовано попередній аналіз на основі Дерева класифікації CART, що скорочує кількість входів НМ для підвищення точності моделювання). Це дасть можли- вість скоротити кількість параметрів НМ.
Для досягнення поставленої мети були визначені такі завдання:
– розробити метод проєктування БП з використанням ГА та Дерева класи- фікації CART;
– перевірити ефективність методу на різних базах даних діагностики за- хворювань на рак молочної залози;
– довести можливість застосування таких НМ в системі охорони здоров'я для діагностики захворювань та допомоги медичним системам (або приладам) під час підтримки прийняття рішень.
Not
a reprint
4. Матеріали та методи дослідження 4. 1. Постановка задачі
Постановка задачі (класифікація даних з діагностики). Нехай задано на- вчальну вибірку у вигляді пар даних вхід-ціль: {x1, t1}, …, {xQ, tQ}, яка генеру- ється функцією tі=f(хі), i=1, …, Q, де хі [х1iхni T] – вектор вхідних даних з елементами хij; tі – бажаний відгук. Функція f() вважається невідомою, але задано множину її реалізацій: Т =
х1і, ...,х tnі,
, i1, 2, ...,Q n, 1 .
Побудувати мережу для визначення функції F(w, хі), яка апроксимує функцію f(х), описую- чи перетворення вхідного сигналу у вихідний, і задовольняє умову
1
1 , ,
Q i ii
F w х t
Q де – деяке додатне число, яке називається нев’язкою.
При цьому вагові коефіцієнти w мережі визначають на основі гібридного навчання (на основі ГА і НМ). Оптимізація цих значень перетворюється в гло- бальний метод адаптивного навчання.
4. 2. Навчальні вибірки (огляд реальних медичних даних)
Під час дослідження розглядається питання застосування еволюційних ал- горитмів (ЕА) для налаштування і навчання НМ на прикладі конкретного за- вдання. Його мета – розробити та дослідити класифікатор для діагностики за- хворювань на рак молочної залози, одержаний шляхом поєднання можливостей багатошарового персептрону з використанням ГА та Дерева розв’язків CART.
Для виконання поставленої задачі було використано три набори реальних медичних даних щодо досліджень пацієнтів, хворих на рак молочних залоз (табл. 1). Усі набори даних були отримані у вільному доступі із мережі Інтернет від медичних навчальних закладів (University of Wisconsin, Clinical Sciences Center). В усіх наборах даних присутній ключовий атрибут – діагноз, який до- поможе виконувати навчання НМ із учителем.
Медичні дані номер «1» [12]. Набір медичних даних отримано від Інститу- ту ракових захворювань у Вісконсіні через Інтернет ресурс UCI.edu. Ця вибірка налічує 140 спостережень по 35 атрибутам. Кожен запис подає дані спостере- ження за одним випадком раку молочної залози. Це пацієнти доктора Волберга з 1984 року. Дані включають лише випадки інвазивного раку молочної залози, які не мають ознак віддалених метастазів на момент постановки діагнозу.
Медичні дані номер «2». Набір медичних даних отримано від Інституту ракових захворювань у Вісконсіні через Інтернет ресурс Kaggle.com. Ця вибірка налічує 569 спостережень по 32 атрибутам.
Медичні дані номер «3». Набір медичних даних отримано від Інституту ракових захворювань у Вісконсіні через Інтернет ресурс Kaggle.com. Ця вибірка налічує 683 спостережень по 11 атрибутам.
Ці три набори даних (табл. 1) було проаналізовано та модифіковано для використання у даному дослідженні.
For reading
only
Таблиця 1
Основні параметри досліджених наборів даних Ідентифікатор
даних (№)
Кількість спосте- режень
Кількість атри- бутів
Атрибут класифікації
1 140 35 Рецидив/ремісія
2 569 32 Доброякісна/злоякісна
3 683 11 Доброякісна/злоякісна
4. 2. Алгоритм навчання багатошарового персептрону за допомогою генетичного алгоритму
До даних застосовано попередній аналіз на основі Дерева класифікації CART, що скорочує кількість входів. Серед різних моделей класифікаторів ві- домі класифікатори на основі Дерева розв’язків. Дерево розв’язків є популяр- ним методом аналізу даних, основою якого є навчання на прикладах і форму- вання відповідної ієрархічної структури.
Дерево розв’язків розбиває вхідний простір (відомий як простір атрибутів) множини даних на взаємовиключні області, кожній з яких присвоєно ім’я.
На основі навчальної вибірки сформовано Дерево розв’язків CART, яке ге- нерує функцію c: nL, де L – множина міток класів. Наприклад, для бінарно- го класифікатора маємо L={0, 1}. Якщо на вхід цього Дерева подається вектор x=xi=[x1...xn]Т, i=1, ..., Q, то його вихід c(x) дорівнюватиме значенню «1», якщо мітка класу більше або дорівнює значенню «0,5», та «0», якщо мітка класу менше «0,5».
Особлива увага у даній роботі приділялася формуванню алгоритму нав- чання багатошарового персептрону, що навчається за допомогою ГА.
Типові кроки використання ГA для еволюції мережі у вигляді БП такі:
Крок 1. Ініціалізація (визначення функції пристосованості, вибір парамет- рів ГА та початкової популяції хромосом).
Використовуємо певну стратегію кодування для кодування архітектури та випадкового генерування вихідної сукупності з N індивідуумами, кожна хромо- сома-особина зображує НМ.
Крок 2. Розкодуємо кожну особину поточного покоління в архітектуру та побудуємо відповідну НМ.
Крок 3. Оцінювання пристосованості хромосом в популяції.
Навчимо кожну НМ з декодованою архітектурою за заздалегідь визначе- ним правилом навчання. Тренування відбувається за алгоритмом навчання БП.
Мережа проходить навчання, в ході якого вона використовується для вирішен- ня поставленого завдання. Під час навчання вимірюється продуктивність дослі- джуваної конфігурації НМ – її функції пристосованості (ФП).
Обчислюємо ФП кожної особини (оцінюємо всі елементи поточної попу- ляції) відповідно до вищезазначеного результату навчання.
Крок 4. Вибираємо кількох найбільш пристосованих особин і резервуємо їх для наступного покоління.
Крок 5. Формування нової популяції шляхом застосування генетичних операторів.
Not
a reprint
Використовуємо генетичні оператори кросовера та мутації для обробки поточної популяції та створення наступної нової.
Крок 6. Перевірка умови зупинки алгоритму. Якщо умова не виконується, повторюємо кроки 2–5.
Число поколінь залежить від того, чи досягнуто прийнятне рішення (че- рез деякий час всі хромосоми і пов'язані з ними значення ФП стануть однако- вими – якби не було мутацій). У цей момент алгоритм повинен бути зупинений.
Процес навчання НМ має вигляд паралельного пошуку з метою поліп- шення хромосоми, який триває доти, поки не буде знайдена оптимальна мережа із найбільшою пристосованістю (найменшим значенням середньоквадратичної похибки НМ).
Велика частина ГА відстежує статистику популяції у вигляді середніх і мінімальних значень ФП популяції.
Функція пристосованості, яку називають функцією оцінки, являє міру при- стосованості заданої особини (хромосоми) в популяції. Вона дозволяє оцінити ступінь пристосованості конкретних особин в популяції і вибрати з них най- більш пристосовані відповідно до еволюційного принципу виживання «найси- льніших» (тих, що найкраще пристосувалися). У завданнях оптимізації ФП, за- звичай, оптимізується і називається цільовою функцією. На кожній ітерації ГА пристосованість кожної особини заданої популяції оцінюється за допомогою ФП, і на цій основі створюється наступна популяція особин, які формують множину потенційних рішень проблеми, наприклад, завдання оптимізації. По- точна популяція в ГА називається поколінням, а до новостворюваної популяції особин застосовується термін «нове покоління» (або «покоління нащадків»).
Схеми кодування інформації про НМ, поданої в хромосомі.
Еволюція ваги з'єднань зазвичай проходить у два етапи, під час яких не- обхідно визначити:
1) зображення ваги для кожної окремої особини-хромосоми (двійкові ряд- ки або звичайні числа);
2) пошукові генетичні оператори.
Ці рішення є дуже важливими, оскільки використання різних уявлень та генетичних операторів призводить до отримання різних результатів.
Повна мережа подається конкатенацією всіх значень ваги в окремій особи- ні. Значення ваги для однієї прихованої одиниці розміщуються разом, щоб опе- ратор кросовера міняв місцями повні приховані одиниці, а не лише окремі зна- чення ваги.
Одним із важливих питань при розробці НМ є вибір генетичних операто- рів, що використовуються в ГA, оскільки від них залежатиме точність. Деталь- ний аналіз різних підходів до вибору генетичних операторів наведено в роботі [17]. Найбільш поширеним операторами є мутація та кросовер.
Мутація. Оператор мутації виконує дві основні ролі:
1) налаштування рішення (невелика зміна хромосоми або переміщення в просторі пошуку, наприклад додаючи невелике випадкове число після кожної епохи навчання НМ);
For reading
only
2) великі зміни (оператор макромутації, який випадковим чином замінює прихований нейрон іншим, ініціалізованим випадковими значеннями ваги).
Оператор кросовера. Існують різні його варіанти, один із них працює шля- хом випадкового вибору вузла a у першій батьківській хромосомі та вузла b у другій, оператор замінює вузол a на копію другого батьківського вузла.
Існують різні способи кодування інформації про НМ, поданої в хромосомі.
Вибір подання інформації в генах визначає клас мереж. Від схеми кодування залежить ефективність нейроеволюційного методу за всіма параметрами.
Виділяють два способи кодування: пряме і непряме.
У разі прямого кодування хромосома зображує деяке лінійне подання НМ.
У такій хромосомі чітко зазначені параметри мережі: входи, виходи і приховані нейрони, зв'язки між ними, вагові значення зв'язків тощо. Завдяки такому по- данню завжди можна побудувати взаємно-однозначну відповідність між струк- турними елементами НМ (нейронами, зв'язками, значеннями ваги тощо) і від- повідними ділянками хромосоми. Такий спосіб кодування НМ є найбільш нао- чним та простим. Головний його недолік – це збільшення розмірів хромосоми при збільшенні кількості входів, нейронів і зв'язків НМ. Це призводить до низь- кої ефективності за рахунок значного збільшення простору пошуку.
На кожній ітерації циклу закодована інформація про НМ у вигляді хромо- соми декодується і отримана мережа проходить тестування, в ході якого вона використовується для вирішення поставленого завдання. Під час тестування вимірюється продуктивність досліджуваної конфігурації НМ – її ФП. Після то- го, як були оцінені всі елементи поточної популяції за допомогою генетичних операторів створюється нова популяція. Процес навчання НМ має вигляд пара- лельного пошуку з метою поліпшення хромосоми, який триває доти, поки не буде знайдена оптимальна мережа із найбільшою пристосованістю (найменшим значенням середньоквадратичної похибки НМ).
Непрямий підхід застосовує більш складні методи та алгоритми кодування параметрів НМ. Зазвичай, генетичне подання є більш компактним, за рахунок чого знижується простір пошуку оптимальної структури мережі.
Приклад НМ, для якої необхідно підібрати оптимальні значення ваги (табл. 2, 3 – кодування значень ваги та хромосоми), зображений на рис. 1.
Одним з ключових питань при проектуванні багатошарової мережі є ви- значення числа нейронів, необхідних для її використання. Якщо число нейронів є занадто великим, то мережа буде перенавчитися (це означає, що похибка на да- них навчання буде дуже малою, але на нових даних може бути великою). Мере- жа, яка добре узагальнює, буде успішною на нових даних і на даних навчання.
Складність НМ визначається числом її вільних параметрів (кількістю ва- гових коефіцієнтів і зсувів), які визначаються числом нейронів. Якщо мережа є занадто складною для заданого набору даних, то це, ймовірно, випадок перена- вчання і маємо погане узагальнення.
Щоб відповідати складності даних, складність мережі можна регулювати.
Це можна зробити без зміни кількості нейронів. Можна відрегулювати ефекти- вне число вільних параметрів без зміни їх фактичного числа.
Not
a reprint
Рис. 1. Нейронна мережа – двошаровий персептрон із двома входами Таблиця 2
Приклад кодування значень ваги
№ ваги Значення коефіцієнта ваги
(1) 1 0 1=1×1=1
(2) 1 1 1=1×3=3
(3) 0 1 1=–1×3=–3
(4) 1 1 0=1×2=2
(5) 0 0 0=–1×0=0
(6) 1 0 1=1×1=1
(7) 1 0 0=1×0=0
(8) 0 1 1=–1×3=–3
(9) 0 1 0=–1×2=–2
(10) 0 0 1=–1×1=–1
(11) 1 1 0=1×2=2
(12) 1 0 1=1×1=1
(13) 1 1 0=1×2=2
Таблиця 3
Кодування хромосоми
№ (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) Код
ваги 101 111 011 110 000 101 100 011 010 001 110 101 110 Щоб отримати мережу, яка здатна до узагальнення, необхідно навчати НМ. Мережа, навчена узагальнювати, буде виконувати апроксимацію також і при нових ситуаціях, як це вона робить на даних, на яких була навченою. Для
For reading
only
отримання хорошого узагальнення використано ключову стратегію, сутністю якої є знаходження найпростішої моделі, яка роз'яснює дані.
У термінах НМ, найпростішою моделлю є мережа, яка містить найменше число вільних параметрів (коефіцієнтів ваги і зсувів), або, що те ж саме, найме- нше число нейронів. Щоб отримати мережу, яка добре узагальнює, потрібно знайти найпростішу мережу, яка відповідає даним.
Існують, принаймні, п'ять різних підходів створення простих мереж: зро- стання, обрізка (скорочення), глобальний пошук, регуляризація і рання зупинка.
Існують різні підходи вирішення проблеми поліпшення здатності НМ узагальнювати – всі вони намагаються визначити найпростішу мережу, яка бу- де відповідати даним. Ці підходи охоплюють дві основні групи:
1) обмеження кількості коефіцієнтів ваги (або, що те ж саме, кількість нейронів) в мережі;
2) обмеження значення величини ваги.
При проєктуванні НМ застосовано перший підхід (обмежуючи кількість нейронів у прихованому шарі).
Припускається, що існує обмежена кількість даних, за допомогою яких можна навчити мережу. Якщо обсяг даних не обмежений (що означає: кількість точок даних значно більше, ніж число параметрів мережі), то повтор не буде проблемою перенавчання.
Оцінка помилки узагальнення – множина тестів. Для оцінювання цієї по- милки для конкретної НМ враховане наступне. З огляду на обмежену кількість наявних даних, важливо тримати в стороні від навчання деяку тестову підмно- жину. Після того як мережа буде навчена, обчислюється помилка, виконуючи навчання мережі на цьому тестовому наборі. Помилка на тестовому наборі вкаже, як мережа буде працювати в майбутньому; вона є мірою здатності мере- жі до узагальнення.
Щоб встановити, що тест є показником здатності мережі узагальнювати, потрібно мати на увазі: що тестовий набір
1) ніколи не повинен використовуватися для навчання НМ (або навіть ви- брати одну мережу з групи мереж-кандидатів); його слід використовувати тіль- ки після того, як навчання завершено;
2) повинен бути представником всіх ситуацій, для яких буде використо- вуватися мережа.
Іноді це важко гарантувати, особливо, коли вхідний простір є багатовимі- рним або має складну форму.
Будемо припускати, що тестовий набір видаляється з набору даних перед початком навчання, і цей набір використовується при завершенні навчання для оцінки узагальнюючої здатності.
Архітектура НМ:
1) двошаровий персептрон, 2) кількість нейронів:
– у прихованому шарі дорівнювала кількості входів (параметрів скороченої бази даних) поділеної навпіл;
– у вихідному шарі – один;
Not
a reprint
3) в якості функції активації в обох шарах використано сигмоїдну функцію активації
1 ,1
u
f u e аргументом якої є будь-яке дійсне число з інтервалу (–
; +), а її значення належать інтервалу (0; 1).
Селекція. Обрано турнірний метод селекції із елітною стратегією: усі хро- мосоми, крім трійки найпристосованіших, будуть ділитися по парам та змага- тися на смерть (помре кожна друга хромосома).
Репродукція (застосування генетичних операторів). В самому початку ал- горитму користувач може визначити шанси виконання кросоверу та мутації ок- ремо: за замовчуванням ці значення дорівнюють 100 % та 10 % відповідно.
У якості оператора кросоверу було обрано звичайний одноточковий кросо- вер. При його виконанні з’являються два нащадки (перший нащадок отримує першу частину генів від батька, другу від матері, а другий – першу частину ге- нів від матері, другу – від батька).
У якості оператору мутації використовується стандартна одноточкова му- тація.
Число поколінь залежить від того, чи досягнуто прийнятне рішення або перевищено задану кількість ітерацій. Алгоритм відстежує статистику популя- ції у вигляді середніх і мінімальних значень ФП елементів популяції.
4. 3. Відбір істотних ознак для нейронної мережі на основі дерева CART
Для визначення Дерева розв’язків CART використано систему MatLab (американської компанії MathWorks, яка спеціалізується на розробці програм- ного забезпечення для математичних обчислень та імітаційного моделювання;
США). Список ознак після відбору на медичних даних номер «1» наведено в табл. 4.
Таблиця 4
Список ознак після відбору на медичних даних 1
№ Було 35 атрибутів – стало 13
1 x [0]
2 x [4]
3 x [1]
4 x [9]
5 x [10]
6 x [6]
7 x [5]
8 x [7]
9 x [12]
10 x [11]
11 x [2]
12 x [8]
13 x [3]
For reading
only
Аналогічним способом сформовані такі ж списки ознак для інших медич- них даних (табл. 5).
Таблиця 5
Список ознак після відбору на медичних даних 2 і 3
№ Було 32 атрибути – стало 10 Було 11 атрибутів – стало 9
1 x [7] x [1]
2 x [1] x [5]
3 x [3] x [0]
4 x [4] x [2]
5 x [2] x [3]
6 x [6] x [7]
7 x [5] x [6]
8 x [8] x [4]
9 x [9]
x [8]
10 x [0]
На основі Дерева розв’язків CART виконано скорочення кількості атрибутів.
5. Результати дослідження методу проєктування мережі на основі ге- нетичного алгоритму, Дерева класифікації CART
5. 1. Метод проєктування багатошарового персептрону
Розроблено метод проєктування БП з використанням ГА та Дерева класи- фікації CART.
Повна мережа подається конкатенацією всіх значень ваги в окремій особи- ні. Вибрано генетичні оператори (мутація та кросовер), що використовуються в ГA, оскільки від них залежить точність. Значення ваги для однієї прихованої одиниці розміщуються разом, щоб оператор кросовера міняв місцями повні приховані одиниці, а не лише окремі значення ваги. Даний метод застосовує поєднання оптимізації вагових коефіцієнтів НМ на основі ГА та попередній аналіз даних на основі Дерева класифікації CART, що скорочує кількість входів НМ для підвищення точності моделювання.
Маємо такий результат аналізу даних на основі Дерева класифікації CART:
– на наборі медичних даних номер «1» було 35 атрибутів після скорочення стало 13;
– на наборі номер «2» було 32 атрибутів – стало 10;
– на наборі номер «3» було 11 атрибутів – стало 9.
5. 2. Перевірка ефективності методу
Побудова НМ здійснювалась двічі. На початкових даних без скорочення кількості вхідних атрибутів (табл. 6) та на даних після скорочення кількості за допомогою Дерева класифікації CART (табл. 7).
Для підвищення продуктивності бінарного класифікатора визначені множин S1 і S2 (S1 – навчальна множина, S2 – множина тестування або контрольна вибірка).
Not
a reprint
Таблиця 6
Результат моделювання на основі БП-мережі з використанням вихідних баз даних
№ бази даних
Кількість ат- рибутів
Кількість прикладів (номери)
Результат моделю- вання
Точність (%)
1 35
Навчання S1=1:70 22 11
60,21
10 27
Тестування S2=71:140
21 14
64,22
8 27
2 32
Навчання S1=1:284 118 22
75,86
31 113
Тестування S2=285:569
117 23
73,36
25 119
3 11
Навчання S1=1:341 148 11
80,33
27 155
Тестування S2=342:683
138 20
78,21
23 160
Як видно, точність класифікації коливалась в межах від 60,21 % до 80,33 % на навчальній множині та від 64,22 % до 78,21 % на тестовій.
Результат функціонування (моделювання) бінарного класифікатора на ско- рочених базах даних наведено в табл. 7.
Таблиця 7
Результат моделювання на основі БП-мережі з використанням трьох скороче- них баз даних
№ бази даних
Кількість атрибутів (було – стало)
Кількість прикла- дів (номери)
Результат мо- делювання
Точність (%)
1 35–13
Навчання S1=1:70 22 11
70,0 10 27
Тестування S2=71:140
21 14
68,57
8 27
2 32–10
Навчання S1=1:284 118 22
81,34 31 113
Тестування S2=285:569
117 23
83,1 25 119
3 11–9
Навчання S1=1:341 148 11
88,86 27 155
Тестування S2=342:683
138 20
87,39 23 160
Точність показує, скільки правильних результатів отримано під час засто- сування даного методу (табл. 8).
For reading
only
Таблиця 8
Інтерпретація результатів експерименту
Клас Результат моделювання на основі RBF-мережі
Точність ( %) Клас 1 (True/False) Клас 2 (True/False)
Клас 1=«1» 22 (true «1») 11 (false «0»)
((22+27)/70)∙1 00 %=70,0 % Клас 2=«0» або
«–1» 10 (false «1») 27 (true «0»)
Результати дослідження свідчать, що кількість атрибутів та їх скорочень, які призводять до компактніших мереж, впливає на результат моделювання (табл. 7):
– мережі невеликого розміру добре узагальнюють,
– великі мережі отримують, зазвичай, погане узагальнення.
На наборі медичних даних 3 на множині тестування точність моделюван- ня склала 87 %.
Ефективність алгоритмів оцінки поточного стану об'єктів є однією з ос- новних характеристик комп'ютерних систем, які забезпечують вирішення за- вдань медичної діагностики. Зручним засобом оцінки ефективності діагностич- ного алгоритму є метод, заснований на аналізі так званої операційної характе- ристичної кривої (ROC Receiver Operating Characteristic curve). Традиційний ROC-аналіз передбачає порівняння операційних характеристик алгоритму – чу- тливості (SE) та специфічності (SP). Маючи ці характеристики, можна зобразити результати перевірки алгоритму в двовимірному ROC-просторі, в якому по осі ординат відкладають значення SE, а по осі абсцис – значення 1–SP. Таким чи- ном, діагностичний тест (бінарний класифікатор) з фіксованими операційними характеристиками відображається точкою в ROC-просторі.
Інколи складно сказати який із класифікаторів є найкращий. Тому було введено новий показник якості класифікаторів – AUC (Area under curve), який описує площу під ROC-кривою на графіку ROC-аналізу. Для ROC-кривої, яка максимально проходить через верхній лівий кут AUC становитиме «1». Якщо ж крива максимально наближена до f(x)=x, то AUC дорівнюватиме 0,5. Для даних маємо (рис. 2, а–в 2-4). Графічні залежності отримані за допомоги пакету ROCR в програмному засобі R-Studio.
Not
a reprint
Рис. 2. ROC-аналіз медичних даних з першого набору (AUC ≈ 0,69)
Рис. 3. ROC-аналіз медичних даних з другого набору (AUC ≈ 0,82)
For reading
only
Рис. 4. ROC-аналіз медичних даних з другого набору (AUC ≈ 0,88)
Отже, встановлено можливість вдосконалення класифікаторів біомедич- них даних у вигляді НМ на основі ГА шляхом застосування процесу відповідної підготовки біомедичних даних із використанням Дерева розв’язків CART.
Перевірено ефективність методу на трьох базах даних діагностики захво- рювань на рак молочної залози. Маємо такий результат дослідження:
– на наборі медичних даних номер «1» було 35 атрибутів після скорочен- ня стало 13; на множині тестування точність моделювання склала 69 %;
– на наборі номер «2» було 32 атрибутів – стало 10; на множині тестуван- ня точність моделювання склала 83 %;
– на наборі номер «3» було 11 атрибутів – стало 9 на множині тестування точність моделювання склала 87 %.
Виконано оцінку чутливості і специфічності цього класифікатора для різ- них наборів даних: якість його роботи на наборах біомедичних даних показала такий результат
– на наборі номер «1» AUC≈0,69;
– на наборі номер «2» AUC ≈0,82;
– на наборі номер «3» AUC ≈0,88.
Отже, мережі – класифікатори невеликого розміру (з невеликою кількіс- тю входів і відповідно невеликою кількістю значень ваги) добре узагальнюють.
Отримані результати дослідження свідчать про те, що ці класифікатори показують найвищу ефективність на множині тестування та при мінімальному скороченні Дерева розв’язків; збільшення кількості скорочень зазвичай погір- шує результат моделювання.
5. 3. Можливість застосування такого багатошарового персептрону в системі охорони здоров'я
На наборах номер «2» і «3» на множині тестування точність моделювання склала відповідно 83 % і 87 %. Отримані результати дослідження доводять можливість застосування таких НМ в системі охорони здоров'я для діагностики