Исследование методов построения моделей кодер-декодер для распознавания русской речи



бет11/23
Дата02.01.2022
өлшемі220.96 Kb.
#452242
түріИсследование
1   ...   7   8   9   10   11   12   13   14   ...   23
issledovanie-metodov-postroeniya-modeley-koder-dekoder-dlya-raspoznavaniya-russkoy-rechi

Стабилизация обучения модели


Для стабилизации процесса обучения использовано несколько методов.

Во-первых, была выбрана стратегия настройки коэффициента скорости обучения под названием NewBob [17]. Во время обучения коэффициент скорости обучения уменьшался в момент, когда функция потерь на контрольной выборке переставала уменьшаться. Начальный коэффициент скорости обучения был равен 0,002, коэффициент уменьшения — 0,9.

Во-вторых, была использована техника разогрева обучения (learning warm up) [18] с коэффициентом скорости обучения, равным 0,0002, в течение первых двух эпох. Данный метод позволяет избежать быстрого изменения весов модели на начальных шагах обучения, что может привести к переобучению.

В-третьих, поскольку слишком большие значения норм градиента могут привести к переобучению модели, был применен метод отслеживания норм градиента [19], для чего в процессе обучения модели хранилось распределение норм градиентов. После того, как норма некоторых градиентов попадала в конец распределения, они обрезались. Но иногда в процессе обучения нормы градиента все равно оказывались большими, поэтому был установлен порог нормы, и этот метод был объединен с методом отслеживания норм градиента. Для отслеживания нормы градиента использовалось скользящее среднее со скоростью затухания 0,95. Для определения области, где нормы градиентов нужно обрезать, был выбран коэффициент стандартного отклонения 2,0. Нормы из таких областей заменялись на их средние значения. Если значение нормы превышало пороговое значение, равное 5,0, то градиент также игнорировался.

Также для предотвращения переобучения модели была проведена регуляризация модели с помощью метода под названием «сглаживание меток» [20]. Данный метод не позволяет модели выдавать вероятности, близкие к 1, и сглаживает распределение правильных меток с помощью равномерного распределения по всем меткам [20].



Достарыңызбен бөлісу:
1   ...   7   8   9   10   11   12   13   14   ...   23




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет