Таблица 2. Результаты экспериментов с полученными моделями
Table 2. Experiments results with a proposed models
Скорость Скорость
WER, декодирова- обучения, Модель
% ния (реальное признаков время) в секунду
Модель с симво-
лами на выходе 25,76 0,325 454,7 сети + МВ-С
СО + МВ-С 24,98 0,321 461,3
СО + ПС + МВ-С 24,76 0,317 458,6
СО + ПС + МВ-Р 24,97 0,312 498,3
СО + ПС + МВ-Г 24,46 0,298 484,5
СО + ПС +
24,17 0,301 487,6
+ МВ-Г + РД
СО — использование стабилизации обучения; ПС — использование частей слов в качестве выхода сети; РД — использование расширенных данных при обучении.
была объединена с тестовой выборкой, что, очевидно, снизило значение WER. Лучший результат был получен при одновременном использовании гибридного механизма внимания, расширенного речевого корпуса, модели на частях слов и стабилизации обучения: 24,17 % — наименьшая ошибка распознавания слов; 0,3 реального времени — скорость декодирования, что на 6 % быстрее базовой интегральной модели и на 46 % быстрее базовой гибридной модели.
Было проведено сравнение точности распознавания в зависимости от параметра лучевого поиска при декодировании речи. Перебирались параметры со значениями 4, 8, 12, 16, 32. Во всех случаях погрешность распознавания отличалась не более чем на 1 %. Таким образом, можно сделать вывод, что погрешность, полученная при распознавании, зависит от модели, а не от алгоритма декодирования.
Заключение
В данной работе исследована интегральная модель для распознавания слитной русской речи без выделения признаков и языковой модели. В качестве элементов выходной последовательности были выбраны части слов обучающей выборки. Полученная модель не смогла превзойти базовые гибридные, однако превзошла остальные базовые интегральные модели по точности распознавания слов речи и по скорости декодирования речи и обучения модели, что может быть полезно в реальных системах распознавания речи. Также показано, что интегральные модели могут работать и без языковых моделей для русского языка, демонстрируя при этом среднюю скорость декодирования выше, чем у гибридных моделей. Полученная модель была обучена на данных без выделения каких-либо признаков, что позволило достичь большей точности распознавания русской речи. В результате экспериментов обнаружено, что для русской речи гибридный тип механизма внимания дает наилучший результат по сравнению с механизмами внимания по расположению и по содержанию.
В будущем планируется проведение экспериментов по объединению языковых моделей и моделей с механизмом внимания. Предполагается применение методов передачи знаний и объединения нескольких моделей распознавания речи.
Достарыңызбен бөлісу: |