Исследование методов построения моделей кодер-декодер для распознавания русской речи


Построение модели кодер-декодер с использованием механизма внимания для распознавания русской речи



бет7/23
Дата02.01.2022
өлшемі220.96 Kb.
#452242
түріИсследование
1   2   3   4   5   6   7   8   9   10   ...   23
issledovanie-metodov-postroeniya-modeley-koder-dekoder-dlya-raspoznavaniya-russkoy-rechi

Построение модели кодер-декодер с использованием механизма внимания для распознавания русской речи

В данной работе получена модель для распознавания слитной русской речи, обученная на необработанных звуковых данных. Для эмуляции стандартных звуковых признаков использовался сверточный слой с окном длиной 25 мс (для соответствия стандартному размеру окна, применяемому в мел-частотных кепстральных коэффициентах) [13]. Данный слой применял операцию свертки с шагом 1. После сверточного слоя применялась функция активации ReLU (Rectified Linear Unit). В итоге был получен выход с 40 каналами для каждой записи. После этого добавлялся сжимающий слой (max-pooling) шириной 25 мс с шагом 10 мс. Этот слой выполнял функцию фильтрации нижних частот. Наконец, была применена функция логарифма для компрессии полученных признаков. Также, после слоев выделения признаков, была выполнена нормализация. Добавлен слой нормализации по средней дисперсии, который применялся к каждому из 40 каналов независимо для каждой последовательности.

Декодер представлял собой обычную LSTMсеть, а в качестве кодера использовалась двунаправленная LSTM-сеть. Также после каждого слоя в кодере добавлялся слой сжатия (maxpooling) вдоль оси времени для уменьшения

1   2   3   4   5   6   7   8   9   10   ...   23




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет