В данной работе обучение интегральной системы распознавания речи производилось по обучающему речевому корпусу, собранному в СПИИРАН [21]. Корпус состоит из трех частей, составленных из записей 105 дикторов — носителей русского языка разного пола, и аудиоданных из аудиовизуального корпуса HAVRUS [22]. Общая продолжительность аудиозаписей, входящих в корпус, — более 30 часов.
В работе применялись два метода расширения речевых данных для обучения: изменение скорости и темпа звуковых данных.
Для изменения темпа использовалась функция tempo, реализованная на основе метода WSOLA [23], инструмента Sox [24]. Для каждого элемента обучающего речевого корпуса было применено изменение темпа на 90 и 110 % от исходного значения. Чтобы изменить скорость сигнала, выполнена повторная дискретизация сигнала, для чего также была применена функция из инструмента Sox. Для каждого элемента тренировочного корпуса применено изменение темпа на 90 и 110 % от исходного значения.
Расширенные данные добавлялись только на этапе обучения и не применялись во время шага предварительного обучения для ускорения. В итоге суммарная длительность данных для обучения оказалась равна приблизительно 150 часам.
Достарыңызбен бөлісу: |