Исследование методов построения моделей кодер-декодер для распознавания русской речи



бет1/23
Дата02.01.2022
өлшемі220.96 Kb.
#452242
түріИсследование
  1   2   3   4   5   6   7   8   9   ...   23
issledovanie-metodov-postroeniya-modeley-koder-dekoder-dlya-raspoznavaniya-russkoy-rechi



МОДЕЛИРОВАНИЕ СИСТЕМ И ПРОЦЕССОВ

УДК 004.522 Научные статьи doi:10.31799/1684-8853-2019-4-45-53 Articles Исследование методов построения моделей кодер-декодер для распознавания русской речи



Н. М. Марковникова, программист, orcid.org/0000-0002-2352-4195, niklemark@gmail.com

И. С. Кипятковаа, б, канд. техн. наук, старший научный сотрудник, orcid.org/0000-0002-1264-4458 аСанкт-Петербургский институт информатики и автоматизации РАН, 14-я линия В. О., 39, Санкт-Петербург, 199178, РФ бСанкт-Петербургский государственный университет аэрокосмического приборостроения,

Б. Морская ул., 67, Санкт-Петербург, 190000, РФ

Введение: классические системы автоматического распознавания речи традиционно строятся с помощью акустической модели на основе скрытых моделей Маркова и статистической языковой модели. Такие системы демонстрируют довольно высокую точность распознавания, но состоят из нескольких независимых сложных частей, что при построении моделей может вызывать проблемы. В последнее время распространение получил интегральный метод распознавания с использованием глубоких искусственных нейронных сетей. Этот подход позволяет легко реализовывать модели, применяя только одну нейронную сеть. Интегральные модели часто демонстрируют лучшую производительность с точки зрения скорости и точности распознавания речи. Цель: реализация интегральных моделей для распознавания слитной русской речи, их настройка и сравнение с гибридными базовыми моделями с точки зрения точности распознавания и вычислительных характеристик, таких как скорость обучения и декодирования. Методы: создание кодер-декодер-модели распознавания речи с использованием механизма внимания, применение техник стабилизации и регуляризации нейронных сетей, аугментация данных для обучения, установка частей слов в качестве выхода нейронной сети. Результаты: получена кодер-декодер-модель на основе механизма внимания для распознавания слитной русской речи без выделения признаков и использования языковой модели. В качестве элементов выходной последовательности были установлены части слов обучающей выборки. Полученная модель не смогла превзойти базовые гибридные модели, однако превзошла базовые интегральные модели как по точности распознавания, так и по скорости декодирования и обучения. Ошибка распознавания слов в речи равна 24,17 %, а скорость декодирования — 0,3 реального времени, что быстрее базовой интегральной и гибридной моделей на 6 и 46 % соответственно. Также показано, что интегральные модели могут работать и без языковых моделей для русского языка, демонстрируя при этом скорость декодирования выше, чем у гибридных моделей. Полученная модель была обучена на данных без выделения каких-либо признаков. В результате экспериментов обнаружено, что для русской речи гибридный тип механизма внимания дает наилучший результат по сравнению с механизмами внимания по расположению и по содержанию. Практическая значимость: полученным моделям требуется меньший объем памяти и меньшее время декодирования речи по сравнению с традиционными гибридными моделями, что может позволить использовать их на мобильных устройствах локально, без вычислений на удаленных серверах.



Достарыңызбен бөлісу:
  1   2   3   4   5   6   7   8   9   ...   23




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет