Краткий обзор интегральных моделей для автоматического распознавания речи
В статье [1] была предложена интегральная модель распознавания речи на основе механизма внимания и с использованием ЯМ на этапе декодирования моделей. Для интеграции модели с ЯМ были построены конечные взвешенные автоматы [2]. На этапе декодирования выполнялся поиск выходной последовательности, которая бы минимизировала функцию потерь, общую для модели и ЯМ. Таким образом, в данной работе на корпусе английской речи были получены значения WER11,3 % и CER4,8 %.
Независимо в работе [3] была предложена подобная интегральная система, основанная на архитектуре кодер-декодер с механизмом внимания. Система получила название «Listen, Attend and Spell». Кодер представлял собой нейросетевую модель с двунаправленной длинной краткосрочной памятью (Bidirectional Long Short-Term Memory — BLSTM) [4] в пирамидальной форме, а в декодере использовался стек из обычных LSTM-моделей [5]. Кроме того, на этапе декодирования применялась ЯМ. На корпусе английской речи Google Voice Search была получена оценка WER 10,3 %.
В статье [6] была предложена модель нейронной сети под названием «Transformer» для задачи машинного перевода текста. Данная модель основана исключительно на механизме внимания и полностью избегает операций повторения и свертки. Эксперименты показывают, что модель Transformer позволяет достичь высокой точности. При этом данная модель обладает высокой степенью распараллеливания вычислений и требует значительно меньшего времени для обучения. Кроме того, было показано, что она подходит и для других задач, например распознавания речи.
Более полный обзор моделей для распознавания речи, в том числе интегральных, может быть найден в работах [7, 8]. Проведенный анализ показал, что интегральные модели могут хорошо работать как с ЯМ, так и без нее для языков со строгим грамматическим порядком слов (например, английским). Заметим, что русский язык характеризуется высокой степенью грамматической свободы и сложным механизмом словообразования. Таким образом, следует использовать внешние ЯМ для повышения точности. В любом случае, для русского языка не найдено других исследований с применением интегральных моделей распознавания речи.
Достарыңызбен бөлісу: |