Кілттік сөздер: Сөйлеуді автоматты тану (ASR), қайталанатын нейрондық желілер (RNN), тілдік модельдеу (LM), акустикалық модельдеу (AM).
Index Terms: Automatic speech recognition, recurrent neural
networks, language modeling, acoustic modeling.
Index Terms: Automatic speech recognition, recurrent neural
networks, language modeling, acoustic modeling.
Index Terms: Automatic speech recognition, recurrent neural networks, language modeling, acoustic modeling.
Ключевые слова: Автоматическое распознавание речи (ASR), повторяющиеся нейронные сети (RNN), языковое моделирование (LM), акустическое моделирование (AM).
I. КІРІСПЕ
Сөйлеуді автоматты түрде тану машиналардың көмегімен сөзді мәтінге түрлендіру міндетіне жатады [1]. Сөйлеуді автоматты түрде тану жүйесінің негізгі мақсаты - сөйлеу сөздерінің акустикалық көрінісін түсіру және үлгіні сәйкестендіру әдістері арқылы айтылған сөздерді анықтау [2]. Дәстүрлі түрде ASR жүйелері акустикалық модельдеу үшін Гаусс қоспасының моделіне негізделген жасырын Марков үлгісін (GMM-HMM) [3] және лингвистикалық модельдеу үшін n-грамманы [4] пайдалана отырып әзірленеді. Акустикалық үлгінің параметрлері әдетте сөйлеу сигналдарының алдыңғы жағындағы параметрлеуге негізделген ұсақ жиілікті цестральды коэффициенті (ағыл. MFCC - Mel-frequency cepstral coefficients) бойынша оқытылады. ASR зерттеу жұмыстарының көпшілігі ең алдымен ересектердің сөйлеуін тануға арналған. Балалардың ASR жүйесінің дамуы ересектердің ASR саласында пайда болған зерттеу тенденцияларын мұқият бақылайды. Ересектерге арналған заманауи ASR жүйелері HMM (DFNN-HMM) негізіндегі терең бағытталған нейрондық желіге негізделген [5], [6].
DFNN - акустикалық мүмкіндіктерді ескере отырып, сенонның артқы ықтималдығын (байланған трифон күйін) шығару үшін уақыт бойынша кері таралу (ағыл. BPTT - back propagation through time) [7] арқылы үйретілген көп қабатты сызықты емес желі. Жаттығуда пайдаланылатын бекітілген өлшемді жылжымалы терезе үшін GMM және DFNN екеуі де сигналдардағы ұзақ қысқамерзімді тәуелділіктерді модельдей алмайды. Керісінше, кері байланыс (қайталанатын) қосылымдарды қамтитын ұзақ қысқамерзімді жады оларды осындай күрделі уақытта өзгеретін сигналдарды модельдеу үшін қолайлы етеді [8].
ASR-де тілдік модель ауызша айтылымдардағы сөздер тізбегінің іздеу кеңістігін азайтуға және P(W) сөз тізбегінің бірлескен ықтималдығын қамтамасыз етуге көмектеседі. Ең жиі қолданылатын n-gram тіл үлгісі (n−1) сөздердің тізбегін пайдалана отырып, келесі сөзді реттілікпен болжайды [4]. Бұл әдістемеде 1,..., N сөйлемін сақтау ықтималдығы келісідей өрнекпен жуықталады:
P(W) = (1)
N-gram тіл үлгісінің маңызды кемшіліктері:
Мәтінмәннің сәйкессіздігі: Тестілеу кезінде көрінбейтін мәтінмәнді шешу үшін резервтік модель (ағыл. Back-off model) [9] қолданылады. Артқа түсіру үлгісі (n−1)-грамдық қатардың шартты ықтималдығын бағалайды, мұнда ең сол жақ сөз n-граммдық қатардан жойылады.
n-gram тілінің моделі ұзақ мерзімді тәуелділіктерді модельдей алмайды, сондықтан n = 5-тен жоғары болса, тиімді деп табылмайды.
Ш-gram тіл үлгісі тек семантиканы емес, тек қана синтаксиканы үлгілей алады.
Нейрондық желіге негізделген тіл үлгілері ngram тіл үлгілеріндегідей сөз жиіліктерінен гөрі кіріс ретінде сөздіктегі сөздердің бірігіп келуін бөлуді қабылдайды [10]. Осының нәтижесінде нейрондық желіге негізделген тіл үлгісі кері схемаға қарағанда контекстік сәйкессіздікті тиімдірек өңдей алады. Кері байланыс қосылымдарының болуымен қайталанатын нейрондық желі (RNN) мәтінмәнді де, ұзақ мерзімді уақытша ақпаратты да тиімді модельдей алады. Ағымдағы әдебиеттерде қайталанатын нейрондық желіге негізделген тіл моделі (RNNLM) кеңінен зерттелген және әдеттегі n-gram тіл үлгісінен айтарлықтай асып түсетіні хабарланған [11], [12], [13].
Ұзақ қысқамерзімді жадыға негізделген акустикалық модельдеу үлкен сөздік қорының контекстінде ересектердің сөйлеуін автоматты түрде сөйлеуді тану тапсырмасының контекстінде, бірақ n-gram тіл үлгісінің контекстінде зерттелген [14]. Бұл жұмыстың қосқан үлесі екі есе. Біріншіден, біз ұзақ қысқамерзімді жадыға негізделген акустикалық модельді қайталанатын нейрондық желі-тілдік модельді n-gramмен салыстыра отырып, бағалағымыз келеді. Екіншіден, біз сәйкес және сәйкес келмейтін сынақ жағдайында балалардың автоматты түрде сөйлеуді тану тапсырмасын модельдеудегі осы соңғы жетістіктерді зерттеуді көздеп отырмыз. Бір қызығы, біздің эксперименттік зерттеуіміз қайталанатын нейрондық желіге негізделген акустикалық және лингвистикалық модельдеу осы жұмыста қарастырылған өте төмен ресурсты автоматты түрде сөйлеуді тану тапсырмасында тиімді болуы мүмкін екенін анықтады.
Бұл жұмыстың қалған бөлігі келесідей ұйымдастырылған: II бөлімде біз акустикалық және лингвистикалық модельдеу үшін қайталанатын нейрондық желі архитектурасының нұсқаларын зерттейміз. Сөйлеу корпусының егжей-тегжейлері және осы зерттеуге қатысатын жүйе параметрлері III бөлімде сипатталған. Зерттелген ұзақ қысқамерзімді жадқа негізделген акустикалық модельді және қайталанатын нейрондық желілік тіл үлгісін бағалау IV бөлімде ұсынылған. Бұл құжат V бөлімде қорытындыланады.
II. СӨЙЛЕУДІ АВТОМАТТЫ ТАНУДАҒЫ ҚАЙТАЛАНАТЫН НЕЙРОНДЫҚ ЖЕЛІЛЕР.
Терең беріліс нейрондық желіге негізделген акустикалық модельдеу автоматты түрде сөйлеуді танудағы нормаға айналғанымен, қайталанатын нейрондық желілер әлі де кеңінен зерттелуі керек. Қайталанатын нейрондық желінің ең ерте қолданылуы тілдік модельдеуде жүзеге асырылады және оны үздіксіз сөйлеуді тану үшін акустикалық модельдеуде пайдалану өте жақында хабарланды. Бұл бөлімде біз алдымен қайталанатын нейрондық желіні қолдану арқылы тілдік модельдеу қалай орындалатынын қарастырамыз. Одан кейін акустикалық модельдеу үшін қабылданған қайталанатын нейрондық желінің нұсқасының сипаттамасы беріледі.
Достарыңызбен бөлісу: |