Исследование методов построения моделей кодер-декодер для распознавания русской речи


Краткий обзор интегральных моделей для автоматического распознавания речи



бет4/23
Дата02.01.2022
өлшемі220.96 Kb.
#452242
түріИсследование
1   2   3   4   5   6   7   8   9   ...   23
issledovanie-metodov-postroeniya-modeley-koder-dekoder-dlya-raspoznavaniya-russkoy-rechi

Краткий обзор интегральных моделей для автоматического распознавания речи

В статье [1] была предложена интегральная модель распознавания речи на основе механизма внимания и с использованием ЯМ на этапе декодирования моделей. Для интеграции модели с ЯМ были построены конечные взвешенные автоматы [2]. На этапе декодирования выполнялся поиск выходной последовательности, которая бы минимизировала функцию потерь, общую для модели и ЯМ. Таким образом, в данной работе на корпусе английской речи были получены значения WER11,3 % и CER4,8 %.

Независимо в работе [3] была предложена подобная интегральная система, основанная на архитектуре кодер-декодер с механизмом внимания. Система получила название «Listen, Attend and Spell». Кодер представлял собой нейросетевую модель с двунаправленной длинной краткосрочной памятью (Bidirectional Long Short-Term Memory — BLSTM) [4] в пирамидальной форме, а в декодере использовался стек из обычных LSTM-моделей [5]. Кроме того, на этапе декодирования применялась ЯМ. На корпусе английской речи Google Voice Search была получена оценка WER 10,3 %.

В статье [6] была предложена модель нейронной сети под названием «Transformer» для задачи машинного перевода текста. Данная модель основана исключительно на механизме внимания и полностью избегает операций повторения и свертки. Эксперименты показывают, что модель Transformer позволяет достичь высокой точности. При этом данная модель обладает высокой степенью распараллеливания вычислений и требует значительно меньшего времени для обучения. Кроме того, было показано, что она подходит и для других задач, например распознавания речи.




Более полный обзор моделей для распознавания речи, в том числе интегральных, может быть найден в работах [7, 8]. Проведенный анализ показал, что интегральные модели могут хорошо работать как с ЯМ, так и без нее для языков со строгим грамматическим порядком слов (например, английским). Заметим, что русский язык характеризуется высокой степенью грамматической свободы и сложным механизмом словообразования. Таким образом, следует использовать внешние ЯМ для повышения точности. В любом случае, для русского языка не найдено других исследований с применением интегральных моделей распознавания речи.



Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   23




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет