Аңдатпа. Кәдімгі сөзді автоматты түрде тану (ағыл. Asr automatic speech recognition) жүйелері акустикалық модельдеу үшін gmm-hmm



бет3/4
Дата31.08.2023
өлшемі0.68 Mb.
#476320
1   2   3   4
Мақала. Туйебаев Шоқан.

A. Қайталанатын нейрондық желіге негізделген тілді модельдеу
Қайталанатын нейрондық желі ұзақ мерзімді тәуелділіктерді модельдеу мүмкіндігіне ие және ол қолданыстағы n-gram тіл үлгісіне қарағанда тиімдірек тілді модельдеу үшін пайдаланылды. Қайталанатын нейрондық желіге негізделген тіл үлгісін модельдеуге арналған бір реттік деңгейлі желінің жалпы құрылымы 1-суретте көрсетілген. Ағымдағы сөздің ықтималдығын модельдеу үшін , алдыңғы сөздердің толық тарихын ( ) қайталанатын байланыстар арқылы алынған. Алдыңғы контекстік ақпарат және сөзі ағымдағы мәтінмәндік ақпаратты модельдеу үшін жасырын деңгейге кіріс ретінде беріледі. Шығару деңгейі келесі сөзінің реттіліктегі ықтималдығын генерациялау үшін осы контекстік ақпаратты пайдаланады.

1-сурет. RNN-LM класс негізіндегі желі архитектурасы
Толық шығыс қабаты бар қайталанатын нейрондық желі-тілдік модельді оқыту күрделі есептеуіш болып табылады. Сонымен, бұл мәселені шешу үшін сөздер st кластарына жіктеледі, содан кейін осы класс ақпаратын пайдаланып RNN-LM оқытылады [15], [16]. Әрі қарай, біз белгілі бір сыныпқа жататын сөздердің ықтималдығы тек сол нақты сыныптың ықтималдығына ғана емес, сонымен бірге алдыңғы контекстке де байланысты деп болжауға болады. Бұл жұмыста сыныпқа негізделген қайталанатын нейрондық желі-тіл үлгісі қарапайым факторизация әдісін қолданады, мұнда сөздер жиілік санына негізделген сыныптар арасында бөлінеді. Сондықтан бастапқы сыныптар жиілігі жоғары жалғыз сөздермен, ал кейінгі сыныптар жиілігі аз көп сөздермен тағайындалады. Сөз тізбегінің бірлескен ықтималдығын есептеу үшін біз алдымен жеке класстардың ықтималдық үлестірімін есептейміз, содан кейін осы нақты класқа тағайындалған сөздердің таралуын есептейміз. Мәтінмән берілген wt сөзінің пайда болу ықтималдығы ct−1 (2) арқылы берілген.
P (2)
RNN-LM мәтінмәндік сәйкессіздік мәселесін сөздіктегі сөздердің әрқайсысы үшін үлестірілген ұсынуды үйрену арқылы шешеді [17]. Жаттығу кезінде сөздер тізбегінің бірлескен ықтималдылық үлестірім функциясы сөздердің әрқайсысы үшін осы туынды үлестірілген өкілдіктер тұрғысынан есептеледі. Бұл әдістеме арқылы жаттығу кезінде байқалмайтын сөз тізбегі, егер ол байқалатын тізбектерге мағынасы жағынан ұқсас болса, жақсы жалпылау алынады. Мысалы, сәйкесінше оқыту (көрген) және тестілеу (көрінбейтін) кезеңдеріндегі келесі сөз тізбегін қарастырайық.
• Тренинг сөйлем: Мұнда мысал сөйлем берілген
• Сынақ сөйлем: Мысал сөйлем мұнда берілген
Назар аударыңыз, екі сөйлем бірдей сөздерді қамтиды, бірақ реті бойынша ерекшеленеді. LM семантикалық жағынан ұқсас оқыту сөйлемін көргенде берілген көрінбейтін сынақ сөйлемді тани білуі керек. Кәдімгі n-gram тілдік модельдеу мұны жасай алмады, өйткені олар тек сөз тізбегін үлгілей алады, бірақ мағынасын емес. Жалпы, ұқсас контексте кездесетін сөздер көбінесе бір тапқа жатады. Осылайша, сөздің сөздік құрамындағы басқа сөздердің жанында қаншалықты жиі кездесетінін есептей отырып, біз олар кездесетін сөйлемдердің семантикасын модельдей аламыз [18].
B. LSTM негізіндегі акустикалық модельдеу
DFNN архитектурасында желінің сөйлеу сигналдарының уақытша өзгергіштігін модельдеу мүмкіндігі акустикалық модельдеуде қолданылатын біріктірілген функция векторының ұзындығына байланысты. Сондай-ақ, DFNNs ұзақ мерзімді тәуелділіктерді түсіру үшін қолайлы емес.


2-сурет. (a) RNN және (b) LSTM желілік архитектурасын көрсететін блок-схемалар.
RNN қолдану арқылы біз ұзақ мерзімді тәуелділіктерді де, сигналдың уақытша өзгергіштігін де модельдей аламыз. Бірақ бұл желілер уақыт бойынша кері таралу кезінде белгілі жоғалып кететін градиент мәселесінен зардап шегеді. Бұл белгілі бір уақыт аралығында қате функциясының кері таралатын градиенті экспоненциалды түрде жарылып немесе ыдырайтынын білдіреді. Бұл келесі уақыт қадамдарында салмақтардың дұрыс бейімделмеуіне әкеледі. Бұл мәселені шешу үшін әдебиетте LSTM деп аталатын модификацияланған RNN архитектурасы ұсынылған [19]. LSTM архитектурасында қайталанатын қабат ақпарат ағынын басқару үшін үш арнайы қақпамен бірге нейрондық желінің уақытша күйін сақтай алатын жад ұяшықтарын қамтиды. RNN және LSTM архитектурасының ашылмаған нұсқасының блок-схемалары 2-суретте келтірілген.
t мезетіндегі кіріс сигналы үшін жад ұяшығына ақпарат ағыны желі қанша ақпаратты есте сақтау және ұмыту қажет екенін бақылайтын енгізу және ұмыту қақпаларының көмегімен шешіледі. Мысалы және сәйкесінше желінің есте сақтайтын және ұмытатын ақпаратты білдірсін. Сондай-ақ, қайталанатын нейрондық желінің шығысы делік. Осы үш ақпаратты біріктіру арқылы жады ұяшығына үлесі анықталады. Сонымен қатар, желі келесі кезеңге жіберетін жады ұяшығынан ақпараты шығыс қақпасы арқылы басқарылады. Бұл операциялар математикалық түрде келесідей көрсетіледі:


мұндағы және салмақты және сәйкес желілермен байланысты ауытқуды білдіреді.

Сурет 3. (a) DFNN және (b) DLSTM көмегімен акустикалық модельдеуде қолданылатын желілердің топологиясы.
Алға жіберетін DNN сияқты, ұзақ қысқамерзімді жады қабаттары (LSTM) да тереңірек архитектураны құру үшін жинақталады. Жалғыз ұзақ қысқамерзімді жады (LSTM) қабатының өзі ұзақ мерзімді тәуелділіктерді түсіре алатынына қарамастан, терең ұзақ қысқамерзімді жады (ағыл. DLSTM – deep longshort term memory) пайдалану акустикалық модельдеуде тиімді болып табылады [14]. Бұл бір ұзақ мерзімді жады желісінің үлгі өлшемін үлкейтудің орнына DLSTM желісіндегі бірнеше деңгейлер бойынша параметрлерді бөлуге байланысты. 3-суретте DFNN және DLSTM архитектуралары көрсетілген.
III. ЭКСПЕРИМЕНТТЫ ОРНАТУ
Эксперименттік бағалауда қолданылатын сөйлеуді автоматты тану жүйелері негізінен Kaldi Takeit [20] көмегімен әзірленген. RNN негізіндегі тілдік модельдеуді әзірлеу үшін біз RNNLM құралдар жинағын қолдандық [21]. Төменде біз сөйлеу корпусының егжей-тегжейлерін, қолданылатын акустикалық және лингвистикалық үлгілердің құрылымын және жүйе параметрлерін баптауды сипаттаймыз.


Достарыңызбен бөлісу:
1   2   3   4




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет