Недавно был предложен интегральный метод на основе глубоких искусственных нейронных сетей (ГИНС). Этот подход позволяет легко реализовывать модели, используя только одну нейронную сеть, обученную с помощью метода градиентного спуска и одной функцией потерь. Интегральные модели (end-to-end) часто демонстрируют лучшую производительность с точки зрения скорости и точности. Потенциально этим моделям требуется меньший объем памяти, что позволяет применять их на мобильных устройствах локально, но данные модели требуют большего объема данных для обучения и получения приемлемого результата.
Целью данного исследования было создание интегральных моделей для распознавания слитной русской речи, сравнение их с гибридными базовыми моделями по показателям точности распознавания и вычислительных затрат, таких как скорость обучения и скорость декодирования.
Точность моделей оценивалась по показателям количества неверно распознанных слов в речи (Word Error Rate — WER) и скорости декодирования (Real-Time Factor — RTF).
Достарыңызбен бөлісу: |