Исследование методов построения моделей кодер-декодер для распознавания русской речи


Расширенный речевой корпус для обучения



бет12/23
Дата02.01.2022
өлшемі220.96 Kb.
#452242
түріИсследование
1   ...   8   9   10   11   12   13   14   15   ...   23
issledovanie-metodov-postroeniya-modeley-koder-dekoder-dlya-raspoznavaniya-russkoy-rechi

Расширенный речевой корпус для обучения


В данной работе обучение интегральной системы распознавания речи производилось по обучающему речевому корпусу, собранному в СПИИРАН [21]. Корпус состоит из трех частей, составленных из записей 105 дикторов — носителей русского языка разного пола, и аудиоданных из аудиовизуального корпуса HAVRUS [22]. Общая продолжительность аудиозаписей, входящих в корпус, — более 30 часов.

В работе применялись два метода расширения речевых данных для обучения: изменение скорости и темпа звуковых данных.

Для изменения темпа использовалась функция tempo, реализованная на основе метода WSOLA [23], инструмента Sox [24]. Для каждого элемента обучающего речевого корпуса было применено изменение темпа на 90 и 110 % от исходного значения. Чтобы изменить скорость сигнала, выполнена повторная дискретизация сигнала, для чего также была применена функция из инструмента Sox. Для каждого элемента тренировочного корпуса применено изменение темпа на 90 и 110 % от исходного значения.

Расширенные данные добавлялись только на этапе обучения и не применялись во время шага предварительного обучения для ускорения. В итоге суммарная длительность данных для обучения оказалась равна приблизительно 150 часам.





Достарыңызбен бөлісу:
1   ...   8   9   10   11   12   13   14   15   ...   23




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет