Введение
Системы автоматического распознавания речи (САРР) традиционно строятся с использованием акустической модели (АМ) с применением скрытых марковских моделей (СММ) и модели гауссовой смеси, а также языковой модели (ЯМ). Эти модели показывают хорошую точность распознавания, но они состоят из нескольких частей, которые приходится настраивать независимо. Таким образом, возникновение ошибок в одной части системы может привести к ошибкам в другой. Кроме того, сценарии стандартного распознавания требуют большого объема памяти и вычислительной мощности, что не позволяет применять такие системы локально на мобильных устройствах и требует удаленных вычислений на серверах.