• No results found

View of Determination of the influence of the choice of the pruning procedure parameters on the learning quality of a multilayer perceptron

N/A
N/A
Protected

Academic year: 2022

Share "View of Determination of the influence of the choice of the pruning procedure parameters on the learning quality of a multilayer perceptron"

Copied!
20
0
0

Повний текст

(1)

УДК 681.3.07: 004.8

DOI: 10.15587/1729-4061.2022.253103

Определение влияния выбора параметров процедуры прореживания на качество обучения многослойного персептрона

О. Н. Галчёнков, А. И. Неврев, Б. О. Шевчук, Н. А. Баранов

Проріджування зв'язків у повнозв'язної нейронної мережі дозволяє видали- ти надмірність у структурі нейронної мережі і таким чином зменшити обчи- слювальну складність її реалізації при збереженні результуючих характерис- тик класифікації зображень, що надходять на її вхід. Однак питання вибору параметрів процедури проріджування на даний момент недостатньо вивчені.

Вибір істотно залежить від конфігурації нейронної мережі. Тим не менш, у будь-якій конфігурації нейронної мережі є один або більше багатошарових пе- рсептронів. Для них можна розробити універсальні рекомендації щодо вибору параметрів процедури проріджування. Розглянуто один із найбільш перспек- тивних для практичної реалізації методів – ітераційний метод проріджування, який використовує для регуляризації процесу навчання нейронної мережі пере- добробку вхідних сигналів. Для конкретної конфігурації багатошарового персе- птрона і набору даних MNIST (Modified National Institute of Standards and Technology – база даних зразків рукописного написання цифр, запропонована Національним інститутом стандартів та технологій США як стандарт при співставленні методів розпізнавання зображень) отримані залежності точно- сті класифікації рукописних цифр і швидкості навчання від кроку навчання, ін- тервалу проріджування та кількості зв'язків, що видаляються, на кожній іте- рації проріджування. Показано, що найкращий набір параметрів процедури на- вчання з проріджуванням забезпечує збільшення якості класифікації приблизно на 1 % порівняно з найгіршим у дослідженому діапазоні. Випуклий характер цих залежностей дозволяє конструктивно підходити до знаходження конфігу- рації нейронної мережі, що забезпечує найбільшу точність класифікації при мінімальному обсягу обчислювальних витрат на реалізацію.

Ключові слова: багатошаровий персептрон, нейронна мережа, проріджу- вання, крива навчання, вагові коефіцієнти, класифікація зображень

1. Введение

Использование глубоких нейронных сетей находит всё более широкое рас- пространение в различных практических приложениях, в частности, в задачах классификации изображений [1]. Наряду с развитием свёрточных нейронных сетей появилось большое количество архитектур нейронных сетей, обеспечи- вающих такое же качество классификации, как и свёрточные нейронные сети, но требующих меньший объём вычислений. Это такие сети как MLP-Mixer (multi-layer perceptron mixer – смеситель многослойных персептронов) [2], Vi- sion Transformer (ViT) [3], Compact Transformers [4], ConvMixer (Трансформер, использующий свёртки для смешивания) [5], External Attention Transformer

Not

a reprint

(2)

(Трансформер с внешним вниманием) [6], FNet (Трансформер, использующий преобразование Фурье) [7], gMLP (MLPs with gating – многослойные персеп- троны с поэлементным умножением) [8], Swin Transformer (Трансформер со сдвинутыми окнами) [9] и аналогичные. Несмотря на разнообразие архитектур все они имеют на выходе многослойный персептрон (MLP), а кроме этого и внутри архитектуры.

Многочисленные исследования показали, что полносвязные нейронные се- ти для многих практических задач обладают большой избыточностью, которая может быть устранена без потери результирующего качества [10] или даже с его некоторым улучшением [11]. Одним из наиболее популярных подходов к уменьшению избыточности является прореживание связей в исходной полно- связной нейронной сети. В качестве исходной нейронной сети используется полносвязная сеть с большим количеством связей, обеспечивающая заданные характеристики. Целью прореживания связей является уменьшение вычисли- тельных затрат при сохранении результирующих характеристик. Например, в популярных нейронных сетях AlexNet и VGG-16 (глубокая свёрточная нейрон- ная сеть, разработанная в 2014 году группой компьютерного зрения Оксфорд- ского университета (Visual Geometry Group) и исследователями из Google DeepMind) для работы с набором данных ImageNet возможно сократить в 9 и 13 раз соответственно число связей без ухудшения результирующих характери- стик [12]. За время от появления первых работ по уменьшению избыточности в нейронных сетях [13] разработано большое количество разнообразных подхо- дов [11]. Однако они не охватывают всего многообразия архитектур современ- ных нейронных сетей. Кроме того, постоянно появляются новые практические приложения, требующие повышения качества классификации изображений, при ограничении на используемые вычислительные мощности. Поэтому иссле- дования в этом направлении являются актуальными.

2. Анализ литературных данных и постановка проблемы

Можно выделить следующие подходы к уменьшению вычислительной сложности нейронных сетей за счёт устранения избыточности и при сохране- нии результирующих выходных характеристик.

Распространение знаний (Knowledge Distillation) – предполагает использо- вание специальных целевых функций для обучения простой модели исходя из особенности структуры и набора весовых коэффициентов предварительно обу- ченной полносвязной родительской модели. В [14] предложен новый тип ан- самблевого классификатора, который содержит основную нейронную сеть и целый ряд небольших специализированных нейронных сетей. Последние пред- назначены для классификации тех изображений, на которых ошибается основ- ная сеть. В [15] предложено разбивать исследуемые архитектуры нейронных сетей на блоки и исследовать их влияние на эффективность конечной архитек- туры. В [16] используется анализ внутренних слоёв нейронной сети для удале- ния нейронов с низким вкладом в результирующую точность классификации.

Однако построение структуры простой модели, которую можно эффективно

For reading

only

(3)

обучать под контролем родительской нейронной сети, является достаточно сложной задачей при практической реализации [17].

Методы понижения ранга матрицы весовых коэффициентов (Low-rank Decomposition) используют сокращение весовых коэффициентов, соответствую- щих маленьким собственным числам исходной матрицы коэффициентов. В [18]

предложен алгоритм аппроксимации свёрточных фильтров в нейронных сетях. В [19] предложено одновременно использовать методы сжатия и низкоранговой де- композиции ко всей нейронной сети. Однако задача нахождения собственных чи- сел и векторов матриц большой размерности является весьма сложной в вычис- лительном плане, что может приводить к существенному ухудшению результи- рующих характеристик получаемых структур нейронных сетей.

Квантование параметров (Parameter Quantization) обеспечивает уменьше- ние вычислительной сложности за счёт замены вычислений в формате с плава- ющей запятой на вычисления с фиксированной запятой с уменьшенной разряд- ностью представления весовых коэффициентов. В [20] предложен трёхэтапный конвейер, включающий в себя прореживание нейронов, итерационное умень- шение количества разрядов в представлении весовых коэффициентов и кодиро- вание Хаффмана. Это позволяет существенно уменьшить требования к памяти вычислительного устройства. Использование динамически изменяемой разряд- ности в [21] позволило получить высокие характеристики на наборах данных CIFAR-10 (Canadian Institute For Advanced Research – набор изображений, под- готовленный канадским институтом перспективных исследований) и MNIST.

Однако реализации подобных подходов наиболее приспособлены для реализа- ции на программируемых логических матрицах, а не на универсальных вычис- лителях, и при существенном снижении разрядности могут приводить к значи- тельным потерям в результирующих характеристиках.

Прореживание сети (Network Pruning) предполагает удаление или одиноч- ных связей или целых структур в нейронной сети на основании вычисления до- полнительной функции важности весовых коэффициентов. Это направление представляется наиболее перспективным с точки зрения практической реализа- ции на многоядерных и многопроцессорных вычислителях за счёт хорошей распараллеливаемости вычислений. В ранних работах в качестве такой функ- ции использовалась матрица вторых производных функции потерь [13]. Однако вычисление такой матрицы для сетей большой размерности требует очень большого объёма вычисления на каждой итерации, что инициировало разра- ботку алгоритмов с менее сложной функцией важности [11]. В частности, для свёрточных нейронных сетей были разработаны структурные методы, предпо- лагающие удаление целых каналов [17]. Эти методы хорошо подходят для свёрточных слоёв этих сетей, но не охватывают многослойный персептрон на выходе свёрточных нейронных сетей, поскольку там нет явно выделенных ка- налов. Для прореживания полносвязных слоёв в свёрточных нейронных сетях и просто многослойных персептронах наиболее простым способом является ите- рационное удаление наиболее маленьких весовых коэффициентов [12]. При этом чередуются периоды обучения нейронной сети и удаления связей. Нали- чие интервалов обучения позволяет алгоритму обучения уменьшить значения

Not

a reprint

(4)

весовых коэффициентов для тех связей, которые наименее важны в текущей конфигурации сети. Очевидно, что при таком подходе исключительно важен баланс между длительностью интервалов обучения и количеством удаляемых связей после него. Слишком большое количество связей, удаляемых за один раз, или слишком раннее удаление, когда нейронная сеть ещё не успела доста- точно обучить структуру своих связей, способны привести к деградации нейронной сети. С другой стороны, слишком редкие удаления небольшого ко- личества связей затягивают процесс обучения нейронной сети. Однако в [12] не описано как выбирались параметры процедуры прореживания и не исследовано их влияние на результирующие характеристики нейронной сети. Ещё одним фактором, оказывающим существенное влияние на результирующее качество обучения нейронной сети и устранение избыточности, является возможность переобучения нейронной сети. Здесь под переобученностью нейронной сети понимается ситуация, когда за счёт наличия избыточных нейронов и связей сеть слишком хорошо обучается на данных для обучения, что приводит к худ- шим результатам на тестовых данных. Стандартным подходом для борьбы с этим явлением является регуляризация [22]. В [23] предложена практическая реализация регуляризации при обучении нейронных сетей с помощью нормы L0. Показано, что она может ускорить обучение. Однако поскольку норма весов L0 не дифференцируема, её нельзя напрямую включить в целевую функцию.

Это существенно затрудняет практическую реализацию такой формы регуляри- зации. В [24] рассматривается прореживание каналов в нейронных свёрточных сетях. Для регуляризации используются нормы L1и L2. Это позволяет эффек- тивно прореживать каналы между свёрточными слоями без переобучения. Од- нако рассмотренный в [24] способ регуляризации при прореживании каналов не подходит для прореживания связей в выходном многослойном персептроне, так как там нет явно выраженных каналов. В [25] стабилизация характеристик нейронной сети при прореживании во время обучения осуществляется при по- мощи Dropout. Dropout является простым и эффективным способом регуляри- зации. Принцип действия этой процедуры заключается в отключении от обуче- ния связей, выбираемых на каждой итерации генератором случайных чисел.

Однако отключение связей от обучения приводит к некоторому замедлению сходимости. С точки зрения регуляризации перспективным представляется ис- пользование предискажений входных сигналов (Augmentation). В [26] проана- лизировано влияние предварительной обработки изображений на характери- стики свёрточных нейронных сетей LeNet, Network3 (нейронная сеть, реализу- емая с помощью библиотеки network3.py) и DropConnect (свёрточная нейронная сеть, использующая регуляризацию DropConnect – усовершенствованный вари- ант Dropout). Показано улучшение результирующих характеристик нейронных сетей. Однако прореживание связей в [26] не производилось. В [27] проведено исследование потенциальных характеристик многослойного персептрона при классификации изображений из MNIST. При обучении персептронов использо- валась предварительная обработка входных изображений. В [28] рассмотрены лучшие практики для обработки документов, в качестве одной из них указано расширение набора данных для обучения за счёт предварительной обработки

For reading

only

(5)

изображений. Как в [27], так и в [28] прореживание связей не рассматривалось.

В [29] показано, что одновременное использование прореживания связей в MLP и предискажений входных сигналов позволяет получить не только регуляриза- цию процесса обучения, но и более высокие результирующие характеристики.

Однако в этой работе основной акцент сделан на исследовании эффективности совместного использования прореживания и предискажений входных сигналов.

Вопросы влияния параметров процедуры прореживания на результирующие характеристики не рассматривались. Поэтому представляет интерес исследова- ние влияние выбора параметров процедуры прореживания связей в MLP на скорость обучения и результирующие характеристики.

Таким образом, анализ литературы показал наличие большого количества подходов к реализации процедуры обучения с прореживанием и обеспечению её устойчивости за счёт регуляризации. В то же время отсутствуют исследова- ния по влиянию параметров процедуры прореживания на результирующие ха- рактеристики. Наиболее перспективным с точки зрения исследований с после- дующим построением методики выбора параметров процедуры прореживания представляется итерационная процедура прореживания с регуляризацией за счёт предварительной обработки данных. Очевидно, что этот выбор суще- ственным образом зависит от размерности нейронной сети и сигналов, посту- пающих на её вход. Тем не менее, исследование влияния выбора параметров процедуры прореживания для конкретной структуры нейронной сети и набора входных данных позволит ориентироваться при работе с другими структурами и наборами данных.

3. Цель и задачи исследования

Целью работы является определение зависимости результирующего каче- ства классификации многослойного персептрона от таких параметров алгорит- ма обучения как шаг обучения, период прореживания и количество удаляемых связей за один раз. Это даст возможность обеспечить максимальное качество классификации изображений в конкретных практических приложениях с вы- бранной архитектурой нейронной сети.

Для достижения цели были поставлены следующие задачи:

– для конкретных набора данных (MNIST[30]) и архитектуры нейронной сети провести обучение с прореживанием с параметрами процедуры прорежи- вания в широком диапазоне значений, получить типовые кривые обучения и построить графики зависимости результирующего качества классификации от этих параметров;

– сформулировать методику поиска наилучших параметров процедуры прореживания в зависимости от вида кривой обучения и динамики изменения результирующего качества классификации.

4. Материалы и методы исследования

4. 1. Описание нейронной сети и алгоритма её обучения

Для сопоставимости результатов будем использовать ту же нейронную сеть, что и в работе [29]. Она содержит входной слой из 784 узлов, первый

Not

a reprint

(6)

скрытый слой из 256 нейронов, второй скрытый слой из 128 нейронов и выход- ной слой из 10 нейронов. Функция активации для всех нейронов – сигмоида. На вход нейронной сети подаются предварительно обработанные изображения ру- кописных цифр из набора MNIST [30], каждое из которых содержит 784 пиксе- ля. Ответ нейронной сети определяется номером выхода, на котором макси- мальный сигнал. Для обучения используется стохастический градиентный спуск с постоянным шагом (SGD). Поскольку в качестве функции активации используется сигмоида, для инициализации была использована инициализация Хавьера [31]. В начальном состоянии нейронной сети присутствуют все связи между слоями, весовые коэффициенты – случайные числа с нормальным рас- пределением, нулевым средним и дисперсией, обратно пропорциональной чис- лу связей, входящих в соответствующий нейрон.

Формирование выходных сигналов нейронной сети и алгоритм обучения описываются следующими уравнениями [29]:

– входной сигнал первого скрытого слоя

1 1 ,

in h in h in

X W X (1)

где Xin – вектор входных сигналов нейронной сети, размерностью nin=784,

Win-h1 – матрица весовых коэффициентов между входным слоем и первым скры-

тым слоем, размерностью nh1×nin,

1 256

nh  – количество нейронов в первом скрытом слое, выходной сигнал первого скрытого слоя

1 ( 1) ,

o h act in h

X f X (2)

где fact( ) 1 / (1x  ex) – функция активации, входной сигнал второго скрытого слоя

2 1 2 1 ,

in h h h o h

X W X (3)

где Wh1-h2 – матрица весовых коэффициентов между первым и вторым скрыты- ми слоями, размерностью nh2×nh1,

2 128

nh  – количество нейронов во втором скрытом слое, выходной сигнал второго скрытого слоя

2 ( 2) ,

o h act in h

X f X (4)

входной и выходной сигналы выходного слоя соответственно

For reading

only

(7)

2 2 ,

in o h o o h

X W X (5)

( ) .

out act in o

Xf X (6)

где Wh2-o – матрица весовых коэффициентов между вторым скрытым слоем и выходным слоем, размерностью no×nh2,

no=10 – количество нейронов в выходном слое (количество выходов нейронной сети), вектор ошибок на выходе нейронной сети (размерностьno)

out tar out ,

EXX (7)

где Xtar – вектор известных правильных выходных сигналов нейронной сети, размерностью, no, содержит все нули, за исключением 1 на месте, совпадающем с цифрой, изображённой на входном рисунке, вектор ошибки на выходе второ- го скрытого слоя (размерность nh2)

2 T2 ,

h h o out

EW E (8)

вектор ошибки на выходе первого скрытого слоя (размерность nh1)

1T1 22,

h h h h

E W E (9)

уравнения обновления весовых коэффициентов

2 2 (( (1 )) T 2) ,

h o h o out out out o h

W W  EX   XX (10)

1 2 1 2 (( 2 2 (1 2)) T 1) ,

h h h h h o h o h o h

W W  EX  X X (11)

1 1 (( 1 1 (1 1)) T) ,

in h in h h o h o h in

W W  EX   X X (12)

где операция “∙” обозначает поэлементное перемножение, μ – шаг обучения, скалярная величина.

Прореживание связей в нейронной сети осуществляется с помощью вспо- могательных матриц Hh2-o, Hh1-h2, Hin-h1 с соответствующими размерностями no×nh2, nh2×nh1, nh1×nin

2 2 2 ,

h o h o h o

W W H (13)

1 2 1 2 1 2 ,

h h h h h h

W W H (14)

1 1 1 ,

in h in h in h

W W H (15)

Not

a reprint

(8)

где элементы матриц Hh2-o, Hh1-h2, Hin-h1 имеют единичные начальные значения, при прореживании какой-либо связи соответствующая единица заменяется на ноль.

Через каждые L эпох обучения k процентов ненулевых элементов матриц, Hh2-o, Hh1-h2, Hin-h1, соответствующих элементам матриц весовых коэффициентов Wh2-o, Wh1-h2, Win-h1 с наименьшими модулями, обнуляются.

Одна эпоха – обучение по 60000 изображениям.

4. 2. Описание набора данных MNIST

Набор данных MNIST [30] содержит Eh1WhT1h2Eh2 ,60 тысяч изображе- ний рукописных цифр для обучения нейронной сети и 10 тысяч для тестирова- ния. Каждое изображение имеет размерность 28х28 пикселей и сопровождается информацией о том, что изображено на нём. На основе этой информации фор- мируются вектора Xtar, используемые в уравнении (7). Цвет каждого пикселя закодирован целым двоичным восьмиразрядным числом в диапазоне от 0 до 255. Для предварительной обработки эти значения переводятся в формат с пла- вающей запятой, а для дальнейшего использования в уравнениях (1)…(12) нор- мируются к диапазону от 0 до 1. Примеры цифр из набора MNIST представле- ны на рис. 1.

Рис. 1. Примеры цифр из набора MNIST

For reading

only

(9)

Это один из самых распространённых наборов изображений, на которых испытывают различные конфигурации и алгоритмы обучения нейронных сетей.

4. 3. Предобработка данных

При обучении нейронной сети каждое из изображений, поступающих на её вход, подвергается предварительной обработке, заключающейся в последова- тельном выполнении следующих операций:

– поворот изображения относительно центра на случайный угол в диапа- зоне от –15 до +15 градусов;

– сдвиг по горизонтали на случайную величину в диапазоне от –0.05 до +0.05 от размера изображения по ширине;

– сдвиг по вертикали на случайную величину в диапазоне от –0.05 до +0.05 от размера изображения по высоте;

– расширение/сжатие изображения относительно центра на коэффициент в диапазоне от 0.95 до 1.05;

– повышение контрастности – если значение цвета пикселя было меньше или равно 100, то ему присваивалось значение 0, если значение цвета было больше 100, то ему присваивалось значение 255.

Для каждой из операций использовался свой генератор случайных чисел с равномерным распределением. При выполнении каждой из операций свобод- ные пиксели заполнялись таким же цветом, как и близлежащие заполненные пиксели.

Такая предварительная обработка обеспечивает уникальность изображе- ний, поступающих на вход нейронной сети и регуляризацию процесса обуче- ния [29]. Задача исследования влияния параметров предварительной обработки на результирующие характеристики нейронной сети в данной работе не стави- лась. Исследования такого влияния проведены в работах [26–28].

Тестовые изображения из набора MNIST в обучении не участвуют и пред- варительной обработке не повергаются.

5. Экспериментальное исследование зависимости результирующих ха- рактеристик MLP от параметров процедуры прореживания

5. 1. Результаты обучения многослойного персептрона для разных па- раметров процедуры прореживания

Программа для исследований была написана на языке Python с использо- ванием библиотек Num.py, Tensorflow и Keras. Графики строились с помощью библиотеки Matplotlib. Программа в точности реализовывала уравнения (1) – (15). Предобработка входных изображений производилась с помощью функций из библиотеки Keras. Программа запускалась на облачной платформе Colab [32]. Интерпретатор языка Python и использованные библиотеки на этой плат- форме предустановлены. Аналогично, на платформе загружены популярные наборы данных, в том числе и MNIST.

На рис. 2 представлены кривые обучения нейронной сети с разным шагом обучения для интервалов прореживания L, равного 1,2 и 3 эпохи, и количеством удаляемых связей k, равным 1, 2, 3 и 4 процента. Обучение весовых коэффици-

Not

a reprint

(10)

ентов производилось по каждому изображению, подаваемому на вход. После каждых 1000 итераций обучения вычислялась качество классификации нейрон- ной сетью изображений из набора для обучений (60 тысяч изображений) при те- кущих значениях элементов матриц. Wh2-o, Wh1-h2, Win-h1. Под качеством класси- фикации понимается отношение правильно классифицированных изображений к общему числу изображений. Точки на кривых рис. 2 получены усреднением 60 значений качества классификации, вычисляемых при обучении на протяжении соответствующей одной эпохи. На рис. 3 представлены графики качества клас- сификации изображений из тестового набора, соответствующие кривым обуче- ния на рис. 2. То есть точки графиков на рис. 3 получены при тех же матрицах весовых коэффициентов, которые были получены при обучении в соответству- ющие моменты обучения. Отличие состоит в том, что качество классификации вычислялась для изображений из тестового набора (10000 изображений).

а б

в г

For reading

only

(11)

д е

Рис. 2. Кривые обучения многослойного персептрона для различных значений шага обучения и параметров процедуры прореживания: а – L=1, k=1; б – L=1, k=2; в – L=1 , k=3; г – L=1, k=4; д – L=2, k=2; е – L=3, k=3; для всех графиков 1

– µ=0.0012, 2 – µ=0.0025, 3 – µ=0.005, 4 – µ=0.01, 5 – µ=0.02, 6 – µ=0.04

а б

в г

Not

a reprint

(12)

д е

Рис. 3. Графики качества классификации нейронной сетью изображений из те- стового набора, соответствующие кривым обучения, приведенным на рис. 2:

а – L=1, k=1; б – L=1, k=2; в – L=1, k=3; г – L=1, k=4; д – L=2, k=2; е – L=3, k=3;

для всех графиков 1 – µ=0.0012; 2 – µ=0.0025; 3 – µ=0.005; 4 – µ=0.01;

5 – µ=0.02; 6 – µ=0.04

Зависимости кривых обучения от количества удаляемых связей при одном и том же шаге обучения и интервале прореживания L=1 эпоха приведены для

данных для обучения на рис. 4 и для данных для тестирования на рис. 5.

а б

в г

For reading

only

(13)

д е

Рис. 4. Зависимость кривой обучения от количества удаляемых связей по дан- ным для обучения при L=1 и одинаковом шаге обучения, а – µ=0.0012;

б – µ=0.0025; в – µ=0.005; г – µ=0.01; д – µ=0.02; е – µ=0.04; для всех графиков 1 – k=1; 2 – k=2; 3 – k=3; 4 – k=4; 5 – k=5

а б

в г

Not

a reprint

(14)

д е

Рис. 5. Зависимость качества классификации от количества удаляемых связей по данным для тестирования при L=1 и одинаковом шаге обучения:

а – µ=0.0012; б – µ=0.0025; в – µ=0.005; г – µ=0.01; д – µ=0.02; е – µ=0.04; для всех графиков 1 – k=1; 2 – k=2; 3 – k=3; 4 – k=4; 5 – k=5

Из графиков на рис. 2–5 видно следующее:

– для выбранной конфигурации нейронной сети и используемого набора входных данных разница в результирующих характеристиках нейронной сети при выборе наихудшего и наилучшего набора параметров процедуры обучения составляет порядка 1 %,

– для выбранной конфигурации нейронной сети и используемого набора входных данных избыточность полностью удаляется при исключении примерно 80 % связей. Это видно по тому, что независимо от шага обучения и параметров процедуры прореживания дальнейшее удаление связей приводит к ухудшению классификации;

– прореживание на 1 % после каждой эпохи обучения обеспечивает немно- го более лучший результат, чем прореживание на 2 % через каждые две эпохи и прореживание на 3 % через каждые три эпохи;

– при прореживании связей после каждой эпохи увеличение процента уда- ляемых связей приводит к ухудшению качества классификации;

– существует наилучшее значение шага обучения, обеспечивающее наибольшую величину правильной классификации. При маленьком шаге обу- чения нейронная сеть не успевает обучаться, а при большом наступает деграда- ция процесса обучения. Соответствующие зависимости максимально достигае- мой точности классификации в зависимости от шага обучения приведены на рис. 6, причём, этот же диапазон шагов обучения обеспечивает наискорейшее достижение этих максимумов – рис. 7.

Графики, приведенные на рис. 6, показывают, что разница в максимально достигнутой точности классификации при разных параметрах процедуры про- реживания в рамках исследуемого диапазона параметров может достигать 1 %.

Причём, данные рис. 7 показывают, что шаг обучения, обеспечивающий мак- симальную точность классификации, одновременно обеспечивает и минималь-

For reading

only

(15)

ное количество итераций для достижения этого максимума. Необходимо отме- тить, что при достижении максимальной точности процесс обучения нейронной сети не останавливается, поскольку второй целью, которая преследуется, явля- ется удаление всей избыточности из архитектуры сети.

а б

Рис. 6. Зависимость максимальной точности классификации от шага обучения и параметров процедуры прореживания: а – для изображений из набора для обу-

чения; б – для изображений из набора для тестирования; для всех графиков 1 – L=1, k=1; 2 – L=1, k=2; 3 – L=1, k=3; 4 – L=2, k=2, 5 – L=3, k=3

а б

Рис. 7. Зависимость количества эпох для достижения максимальной точности классификации от шага обучения и параметров процедуры прореживания:

а – для изображений из набора для обучения; б – для изображений из набора для тестирования; для всех графиков 1 – L=1,k=1; 2 – L=1,k=2; 3 – L=1,k=3;

4 – L=2,k=2, 5 – L=3,k=3.

Not

a reprint

(16)

5. 2. Методика поиска наилучших параметров процедуры прореживания Методика предполагает многократное обучение нейронной сети с разными параметрами и прохождение пунктов с 1 по последний. Выбор архитектуры MLP для конкретной практической задачи должен определяться желаемым ка- чеством классификации и аналогией с результатами, полученными другими ис- следователями для аналогичных задач. При этом рекомендуется выбирать большее число скрытых слоёв и нейронов в них, по сравнению с аналогами.

Это позволит получить более высокое качество классификации изображений при требуемом объёме вычислений в результате применения прореживания со- гласно данной методике:

1. Выбор начального шага обучения. Для выбора начального шага обуче- ния можно ориентироваться на полученные результаты. Исходная полносвязная нейронная сеть, исследуемая в данной статье, содержала 234752 весовых коэф- фициентов. Наилучшие результаты были получены при шаге обучения 0,005.

Исходя из этого, представляется целесообразным выбрать шаг обучения обрат- но пропорционально увеличению количества весовых коэффициентов в исход- ной нейронной сети, которую необходимо обучить.

2. Выбор начальных значений для весовых коэффициентов. Если в каче- стве функции активации используется сигмоида, для инициализации целесооб- разно использовать инициализацию Хавьера [31]. В начальном состоянии нейронной сети присутствуют все связи между слоями. Весовые коэффициенты задаются как случайные числа с нормальным распределением, нулевым сред- ним и дисперсией, обратно пропорциональной числу связей, входящих в соот- ветствующий нейрон.

Если в качестве функции активации используется другая функция, то надо использовать рекомендации [31].

3. Выбор интервала прореживания и количества удаляемых связей за один раз. Исходя из рис. 6 б, целесообразно выбрать интервал прореживания – одна эпоха, количества удаляемых связей за один раз – один процент.

4. Произвести обучение с выбранным шагом обучения, с меньшим и боль- шим. Это позволит определиться с удачностью выбора начального значения для шага обучения. Если кривая обучения имеет вид, характерный для деграда- ции процесса обучения (это было при шаге обучения 0.02 и 0.04), то необходи- мо проводить обучение с меньшим шагом. Если же наблюдается улучшение классификации при увеличении шага обучения, то его необходимо увеличивать пока это будет приводить к результату.

При обучении необходимо использовать предобработку входных сигналов, описанную в этой статье.

5. Произвести обучение с меньшим процентом удаляемых связей. Как вид- но из рис. 4, 5, излишне большая величина удаляемых при прореживании свя- зей приводит к снижению потенциально достижимых характеристик. С другой стороны, слишком маленькое число удаляемых за один раз связей существенно удлинит общее время на нахождение необходимой конфигурации. Поэтому необходимо многократно проводить обучение нейронной сети со всё меньшим

For reading

only

(17)

процентом удаляемых связей пока это приводит к улучшению распознавания на обучающем наборе.

6. Анализ суммарного процента удалённых связей до появления признака, что вся избыточность удалена из нейронной сети. Если при обучении нейрон- ной сети получается низкий процент предельного прореживания, например 10–

15 %, то рекомендуется добавить нейронов, увеличить количество скрытых слоёв, и повторить все пункты, начиная с 1. Конечный процент предельного прореживания должен быть порядка 80–95 %.

6. Обсуждение результатов исследования влияния выбора параметров процедуры прореживания на качество обучения многослойного персептрона

Обучение нейронной сети представляет собой итерационное решение систе- мы нелинейных алгебраических уравнений большой размерности. Это является сложной математической задачей. Причём, результат существенным образом за- висит от конфигурации нейронной сети и класса сигналов, которые поступают на вход. При неизменной конфигурации нейронной сети связи между нейронами остаются постоянными, меняются только значения весовых коэффициентов. При наличии избыточности в нейронной сети, или её добавлении, появляется дополни- тельная степень свободы в том, что можно удалять некоторые связи. Это позволя- ет обеспечить лучшее соответствие конфигурации нейронной сети классу сигна- лов на входе, что даёт более высокое качество классификации [29].

Результаты экспериментального исследования, приведенные на рис. 6, по- казали, что зависимость результирующего качества классификации от парамет- ров процедуры прореживания имеет выпуклый характер. Это позволило сфор- мулировать методику поиска параметров, обеспечивающих наивысшее каче- ство классификации. Кроме этого, полученные типовые кривые обучения, при- веденные на рис. 2–5, позволяют ориентироваться относительно режима обуче- ния нейронной сети в данный момент и соответственно производить изменения параметров. Анализ типовых кривых обучения позволяет чётко идентифициро- вать полное удаление избыточности в нейронной сети, прореживание после ко- торого приводит только к ухудшению качества классификации.

Особенностью полученных результатов является то, что они были получе- ны на одиночно используемом MLP. Это было сделано с целью определить в чистом виде влияние параметров процедуры прореживания именно на MLP.

Поэтому численные значения показателей относятся именно к одиночно ис- пользуемому MLP. Общие закономерности, выявленные для такого использо- вания, останутся справедливыми и для более сложных вариантов использова- ния. Однако вклад MLP в результирующие характеристики требует дальнейших исследований. К таким приложениям относится, например, MLP на выходе свёрточной нейронной сети или многочисленные MLP в составе современных архитектур [2–9].

7. Выводы

1. Обучение с прореживанием многослойного персептрона на примере классификации изображений из набора MNIST с широким диапазоном значе-

Not

a reprint

(18)

ний параметров процедуры прореживания показало возможность увеличения качества классификации примерно на 1 %. При этом первоначальное количе- ство связей 234752 в ходе обучения было уменьшено на 80 %. Наилучшие ре- зультаты наблюдались при удалении 1 % связей с наименьшими модулями ве- совых коэффициентов после каждой эпохи обучения. Кроме этого, исследова- ние показало выпуклый характер зависимости качества классификации от зна- чений параметров процедуры обучения с прореживанием.

2. Сформулирована методика поиска наилучших параметров процедуры обучения с прореживанием связей в многослойном персептроне, которая может быть использована при любом наборе входных изображений и любой архитек- туре MLP. Использование методики позволяет не делать полный перебор всех возможных вариантов значений процедуры обучения с прореживанием, а ис- пользовать минимальный набор шагов для достижения наилучшего качества классификации. Шаги методики нацелены на достижение баланса между ско- ростью обучения, величиной интервала прореживания и количеством связей, удаляемых за один раз.

Литература

1. Liu, W., Wang, Z., Liu, X., Zeng, N., Liu, Y., Alsaadi, F. E. (2017). A survey of deep neural network architectures and their applications. Neurocomputing, 234, 11–26. doi: http://doi.org/10.1016/j.neucom.2016.12.038

2. Tolstikhin, I., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T. et. al. (2021). MLP-Mixer: An all-MLP Architecture for Vision.

ArXiv. Available at: https://arxiv.org/abs/2105.01601

3. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T. et. al. (2021). An image is worth 16x16 words: transformers for image recognition at scale. ArXiv. Available at: https://arxiv.org/abs/2010.11929

4. Hassani, A., Walton, S., Shah, N., Abuduweili, A., Li, J., Shi, H. (2021).

Escaping the Big Data Paradigm with Compact Transformers. ArXiv. Available at:

https://arxiv.org/abs/2104.05704

5. Patches Are All You Need? (2021). Under review as a conference paper at ICLR 2022. Available at: https://openreview.net/pdf?id=TVHS5Y4dNvM

6. Guo, M.-H., Liu, Z.-N., Mu, T.-J., Hu, S.-M. (2021). Beyond Self- attention: External Attention using Two Linear Layers for Visual Tasks. ArXiv.

Available at: https://arxiv.org/abs/2105.02358

7. Lee-Thorp, J., Ainslie, J., Eckstein, I., Ontañón, S. (2021). FNet: Mixing Tokens with Fourier Transforms. ArXiv. Available at: https://arxiv.org/abs/

2105.03824

8. Liu, H., Dai, Z., So, D. R., Le, Q. V. (2021). Pay Attention to MLPs.

ArXiv. Available at: https://arxiv.org/abs/2105.08050

9. Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.

(2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.

ArXiv. Available at: https://arxiv.org/abs/2103.14030

For reading

only

(19)

10. Denil, M., Shakibi, B., Dinh, L., Ranzato, M. A., Freitas, N. (2014).

Predicting Parameters in Deep Learning. ArXiv. Available at:

https://arxiv.org/abs/1306.0543

11. Blalock, D., Gonzalez Ortiz, J. J., Frankle, J., Guttag, J. (2020). What is the state of neural network pruning? ArXiv. Available at: https://arxiv.org/abs/2003.03033

12. Han, S., Pool, J., Tran, J., Dally, W. J. (2015). Learning bothWeights and Connections for Efficient Neural Networks. ArXiv. Available at:

https://arxiv.org/pdf/1506.02626v3.pdf

13. LeCun, Y., Denker, J. S., Solla, S. A. (1990). Optimal Brain Damage.

NIPS. Available at: http://yann.lecun.com/exdb/publis/pdf/lecun-90b.pdf

14. Hinton, G., Vinyals, O., Dean, J. (2015). Distilling the knowledge in a neural network. NIPS Deep Learning and Representation Learning Workshop.

ArXiv. Available at: https://arxiv.org/abs/1503.02531

15. Li, C., Peng, J., Yuan, L., Wang, G., Liang, X., Lin, L., Chang, X.

(2020). Block-Wisely Supervised Neural Architecture Search With Knowledge Distillation. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). doi: http://doi.org/10.1109/cvpr42600.2020.00206

16. Aflalo, Y., Noy, A., Lin, M., Friedman, I., Zelnik, L. (2020). Knapsack Pruning with Inner Distillation. ArXiv. Available at: https://arxiv.org/abs/2002.08258 17. Wang, Z., Li, F., Shi, G., Xie, X., Wang, F. (2020). Network pruning using sparse learning and genetic algorithm. Neurocomputing, 404, 247–256. doi:

http://doi.org/10.1016/j.neucom.2020.03.082

18. Denton, E. L., Zaremba, W., Bruna, J., LeCun, Y., Fergus, R. (2014).

Exploiting linear structure within convolutional networks for efficient evaluation.

Advances in Neural Information Processing Systems, 1269–1277.

19. Li, Y., Gu, S., Mayer, C., Van Gool, L., Timofte, R. (2020). Group Sparsity: The Hinge Between Filter Pruning and Decomposition for Network Compression. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). doi: http://doi.org/10.1109/cvpr42600.2020.00804

20. Han, S., Mao, H., Dally, W. J. (2015). Deep compression: compressing deep neural networks with pruning, trained quantization and Huffman coding. ArXiv.

Available at: https://arxiv.org/abs/1510.00149

21. Qiu, J., Wang, J., Yao, S., Guo, K., Li, B., Zhou, E. et. al. (2016). Going Deeper with Embedded FPGA Platform for Convolutional Neural Network.

Proceedings of the 2016 ACM/SIGDA International Symposium on Field- Programmable Gate Arrays. Monterey. doi: http://doi.org/10.1145/2847263.2847265 22. Paupamah, K., James, S., Klein, R. (2020). Quantisation and Pruning for Neural Network Compression and Regularisation. 2020 International SAUPEC/RobMech/PRASA Conference. doi: http://doi.org/10.1109/saupec/

robmech/prasa48453.2020.9041096

23. Louizos, C., Welling, M., Kingma, D. P. (2018). Learning sparse neural networks through l0 regularization. ICLR 2018. ArXiv. Available at:

https://arxiv.org/abs/1712.01312

24. Li, J., Qi, Q., Wang, J., Ge, C., Li, Y., Yue, Z., Sun, H. (2019). OICSR:

Out-In-Channel Sparsity Regularization for Compact Deep Neural Networks. 2019

Not

a reprint

Посилання

СУПУТНІ ДОКУМЕНТИ

The growth of nautical tourism and the range of activities it involves carry the risk of saturation of coastal regions, and it is important to recognize the values of

For a spe- cific configuration of a multilayer perceptron and the MNIST (Modified National Institute of Standards and Technology) dataset, a database of

Add 3-5 drops of HNO 3 solution into the tubes with poorly soluble barium salts from previous step. Write down the observations into the report and compose molecular, complete ionic

But potential map and mathematical modeling show that with monopolar ablation the destruction zone has a hemispherical shape and scar line is not uniform along the depth of a

inserts and air elements), (Figure 2). The task of evaluation of the effectiveness of the measures, which are aimed to improve the protection level, can be summarized to

Components of “intelligent” power grids in Ukraine: information interaction of control systems; unification of energy clusters, creation of intelligent electricity grid

It has been established that, in contrast to the well- known, the advanced applied information technology of thematic image segmentation of optical-electronic im- ages from

Candidate of higher education Faculty of Informatics and Computer Science National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute», Ukraine..

The output signal is a convolution of an ideal input signal spectrum with a discrete spatial transmission spectrum of the modulator, which is followed by convolution with a

The index of the total density of the c-Fos protein in the rats that were un- der the conditions of a light stimulation was lower by 55.3% in the day-time and by 44.1% at night than

In this way, the state has witnessed almost passively at the deprofessionalization of the people, at the professional inactivity of the young graduates of

In this work, we present data about the distribution of thicknesses in Holocene sediments (Drevne- and Novochernomorian time) and their connection with the bottom

On the example of tax sovereignty as a basic component of economic sovereignty, it is argued that state sovereignty and its realization depends not only on the right of state

5) independent work organization models on the basis of distance learning and projects method combination in the process of technical universities students' training;.. 6)

Exploring the paradigm of the formation of the resource supply of the enterprise in the context of resource theories, it is advisable to identify four vectors of the

Analysis of all known publications devoted to the design of telecommunication devices and systems and sub- terahertz range using microwave photonics technology and electronics, made

Affective disorders in women of labor migrants included mixed anxiety- depressive reaction due to an adaptation disorder were found with 28 patients (38,9%), prolonged

Tries to consider the mechanism of self-organizational development for ensuring economic security, which is a complex concept that presupposes the protection of the most important

The powerful oil industry was highlighted to appear in Baku's oil district at the end of the 19 th century and occupied the second place after the USA in oil

According to the main international copyright convention, the Berne Convention for the Protection of Literary and Artistic Works (1886), copyright protection covers a

Therefore, in Ukraine, including Poltava region, the creation and improvement of services in informational-advisory support of agro-industrial complex (AIC), for further more

The purpose of scientific grammar is the in-depth study and description of the grammatical structure of an individual language or different languages on the basis

“personnel adaptation” in the scientific literature are considered. The goal is to study the adaptation of employee behavior to a new organizational environment. Particular