БАЛАЛАРДЫҢ СӨЙЛЕУІН ТАНУ ҮШІН ҚАЙТАЛАНАТЫН НЕЙРОНДЫҚ ЖЕЛІЛЕР НЕГІЗІНДЕ АКУСТИКАЛЫҚ ЖӘНЕ ЛИНГВИСТИКАЛЫҚ МОДЕЛЬДЕУДІ ЗЕРТТЕУ
Аңдатпа. Кәдімгі сөзді автоматты түрде тану (ағыл. ASR - automatic speech recognition) жүйелері акустикалық модельдеу үшін GMM-HMM (ағыл. Gaussian Mixture Model- Hidden Markov model) және тілді модельдеу үшін n-gram қолданады. Соңғы онжылдықта терең бағытталған нейрондық желі (ағыл. Deep feed-forward neural network - DFNN) акустикалық модельдеуде GMM-ді (ағыл. Generalized Method of Moments), яғни математикалық статистика мен эконометрикада үлестірудің белгісіз параметрлерін және эконометрикалық модельдерді бағалау әдісін толық дерлік ауыстырды. Қазіргі автоматты түрде тану жүйелері негізінен DFNN-HMM акустикалық моделіне және n-gram тіл үлгісіне (ағыл. LM – language model) негізделген. Ұзақ қысқамерзімді контекстті модельдеу мүмкіндігінің арқасында қайталанатын нейрондық желіге (ағыл. RNN - recurrent neural network) негізделген тіл үлгілері n-gram тіл үлгілеріне қарағанда төмен түсініксіздікті береді деп хабарланған. Жақында қайталанатын нейрондық желінің нұсқасы, ұзақ қысқамерзімді жады (ағыл. LSTM - longshort term memory) акустикалық модельдеуде сәтті зерттелді. Бір қызығы, қайталанатын нейрондық желіге негізделген акустикалық және лингвистикалық модельдеуді қолданатын автоматты сөйлеуді тану жүйесін бағалау әлі хабарланбаған. Сонымен қатар, біз бұл жетістіктердің көпшілігі ересектердің сөйлеуді автоматты түрде тану контекстінде зерттелетінін ескереміз. Осы жұмыстарға негізделген бұл мақалада біз балалардың сөйлеуін автоматты түрде тану үшін қайталанатын нейрондық желіге негізделген тіл үлгісімен біріктірілген ұзақ қысқамерзімді жадыға негізделген акустикалық модельдеуді зерттейміз. Біздің эксперименттік нәтижелер осындай біріктірілген қайталанатын нейрондық желіге негізделген модельдеу балалардың сөйлеуді автоматты түрде тануының сәйкес және сәйкес келмейтін тапсырмаларында тиімді екенін көрсетеді.
Abstract. The ordinary automatic speech recognition(ASR) frameworks utilize the GMM-HMM for acoustic modeling and the n-gram for language modeling. In the course of the last decade, the deep feed-forward neural network (DFNN) has nearly replaced the GMM in acoustic modeling. The current ASR systems are predominantly dependent on the DFNN-HMM acoustic model and the n-gram language model (LM). Inferable from better long-termcontext displaying capacity, the recurrent neural network(RNN) based LMs have as of now been accounted for to yield lower perplexitythan the n-gram LMs. As of late a variation of RNN, the long-short term memory(LSTM) has been effectively investigated inacoustic modeling. Strangely, the assessment of an ASR systemem ploying both RNN-based acoustic and semantic demonstrating is yetto be accounted for. Further, we note that most of these advancementsare explored in the context of adults’ ASR only. Persuaded bythose works, in this paper we investigate LSTM-based acoustic modeling joined with RNN-based LM for children’s ASR.Our exploratory outcomes show that such consolidated RNN-based modeling is found viable in both coordinated and mismatched children's ASR tasks.
Аннотация. В обычных средах автоматического распознавания речи (ASR) используется GMM-HMM для акустического моделирования и n-грамм для языкового моделирования. В течение последнего десятилетия нейронная сеть с глубокой прямой связью (DFNN) почти заменила GMM в акустическом моделировании. Современные системы ASR в основном зависят от акустической модели DFNN-HMM и языковой модели n-грамм (LM). Из-за лучшей способности отображения долгосрочного контекста, LM на основе рекуррентной нейронной сети (RNN) на данный момент были учтены, чтобы давать меньше затруднений, чем LM n-грамм. В последнее время разновидность RNN, долговременная память (LSTM), была эффективно исследована в акустическом моделировании. Как ни странно, оценка системы ASR, использующей как акустическую, так и семантическую демонстрацию на основе RNN, еще не учтена. Кроме того, мы отмечаем, что большинство этих достижений исследуются только в контексте ASR взрослых. Убежденные этими работами, в этой статье мы исследуем акустическое моделирование на основе LSTM в сочетании с LM на основе RNN для детского ASR. Наши исследовательские результаты показывают, что такое консолидированное моделирование на основе RNN оказывается жизнеспособным как для скоординированных, так и для несовместимых детских задач ASR.
Достарыңызбен бөлісу: |