Таблица 1. Результаты экспериментов с базовыми моделями
Table 1. Experiments results of a baseline models
Скорость Скорость
WER, декодирова- обучения, Модель
% ния (реальное признаков время) в секунду
RСNN + СММ +
2-граммная ЯМ 22,17 0,205 121,4
[27]
BLSTM + меха-
низм внимания 27,83 0,285 401,8
[31]
Transformer [31] 26,64 0,203 427,2
Для тестирования системы использовался речевой корпус из 500 фраз, произнесенных пятью дикторами. Фразы для произнесения были взяты из материалов российской онлайн-газеты «Fontanka.ru».
Также из речевого обучающего корпуса были удалены слишком длинные последовательности, так как кодер-декодер тяжело обучать на длинных входных последовательностях.
В экспериментах, результаты которых представлены в табл. 2, обучающая выборка данных
|