Аңдатпа. Кәдімгі сөзді автоматты түрде тану (ағыл. Asr automatic speech recognition) жүйелері акустикалық модельдеу үшін gmm-hmm



бет4/4
Дата31.08.2023
өлшемі0.68 Mb.
#476320
1   2   3   4
Мақала. Туйебаев Шоқан.

A. Мәліметтер қоры
Балалардың сөйлеуді автоматты тану жүйесін әзірлеу кезінде акустикалық модельдеуге арналған деректер PFSTAR британдық ағылшын балалар сөйлеу корпусынан [22] алынған, ал оқу деректерінің транскрипттері тілдік модельдеуді оқыту үшін пайдаланылады. PFSTAR корпусында 4-13 жас тобындағы ұл/қыз балалардан жиналған оқу-сөйлеу деректері бар. Оның оқу жинағы 46 074 сөзден тұратын 8,3 сағаттық деректерден, 122 спикердің 959 сөзінен, ал сынақ жинағы 5 067 сөзден тұратын 1,1 сағаттық деректерден, 60 спикерден және 129 сөйлеуден тұрады. Қосымша эксперименттер үшін Wall Street Journal британдық ағылшын ересектерге арналған оқу-сөйлеу корпусында (WSJCAM0) басқа сөйлеуді автоматты тану жүйесі әзірленді [23]. Ол 132 651 сөз, 92 ересек (ұл/қыз) сөйлеушінің 7 852 сөзі бар 15,5 сағаттық оқу деректерінен тұрады. NOV92 сынақ жинағы ересектердің сөйлеуді автоматты тану жүйесін бағалау үшін пайдаланылады және оның ұзақтығы 0,6 сағатты құрайды, 5608 сөз, 20 ересек (ер/әйел) спикердің 296 сөзі. Ересектердің сөйлеуді автоматты тану жүйесіне арналған тілдік модельдеу жүйесі WSJCAM0 оқу деректерінің транскрипттері бойынша да оқытылады.


4-сурет. Екі түрлі желілік акустикалық үлгілерде RNNLM үшін тордың қайта бағалау салмағы. (0,75 салмақ мәні екі жағдай үшін де оңтайлы болып саналады)
B. Акустикалық модельдеу үшін параметрді баптау
GMM-HMM контекстке тәуелді акустикалық модельдер сенондардың санын 2500 және сенонға 16 гаусс қоспасы ретінде сақтай отырып оқытылады. DFNN-HMM акустикалық үлгілері 5 жасырын қабатпен және жасырын қабаттардың әрқайсысында сызықты еместік функциясы ретінде tanh бар 1024 түйінмен оқытылады. Модель 20 дәуірмен және 128 шағын топтама өлшемімен дайындалған. DLSTM негізіндегі акустикалық үлгілер әрқайсысы 256 түйіннен тұратын тек 2 жасырын қабатпен оқытылады және дәуірлер мен шағын партия өлшемі сәйкесінше 5 және 128-ге тең. DLSTM оқытуындағы бұл шектеулі таңдау біздің тарапымыздан қолжетімді GPU ресурстарымен негізделген. 91 өлшемді мүмкіндік векторы ± 3 кадрдан асатын 13 өлшемді MFCC мүмкіндіктерін біріктіру арқылы алынады [24].
Алынған мүмкіндік векторларының өлшемі сызықтық дискриминанттық талдауды (LDA) пайдалану арқылы 40-қа дейін азаяды [25]. Бұл 40 өлшемді мүмкіндік векторлары жоғарыда аталған барлық акустикалық үлгілерді үйрету үшін пайдаланылады.
C. Тілді модельдеуге арналған параметрлерді орнату.
Осы жұмыста зерттелген RNN негізіндегі тілдік модельге қарама-қайшылықты қамтамасыз ету үшін біз балалар мен ересектерге арналған автоматты тану жүйелерін үшін 2-граммдық және 4-граммдық тілдік модель әзірледік. Тілдік модельдің сөздік көлемі сәйкесінше балалар мен ересектер үшін 1,5 КБ және 5 КБ ретінде таңдалады. RNN-LM 2 жасырын қабатпен және әрбір жасырын қабатта сызықтық емес функция ретінде 200 сигма тәрізді түйінмен оқытылады. Бұған қоса, сыныптар саны 200-ге орнатылады және BPTT айнымалысы 4-ке орнатылады. Декодтау кезінде RNN-LM биграммдық (2) тілдік модельдеу көмегімен жасалған торларға қолданылады. Тілдік модельдеу салмағы 0,25 қадаммен 0,0-ден 1,0-ге дейін реттелді және 0,75 мәні оңтайлы болып саналады. Бұл баптау тәжірибесінің нәтижелері графигі және 4-суретте көрсетілген.
IV. НӘТИЖЕЛЕР МЕН ПІКІРТАЛАСТАР
DLSTM негізіндегі акустикалық модельдеуді, сондай-ақ RNN негізіндегі лингвистикалық модельдеуді бағалау ересектер мен балаларға арналған сөйлеуді тану мәселелері үшін жүргізілді. I кестеде сөз қатесінің жылдамдығы (WER) тұрғысынан акустикалық модель және тілдік модель әртүрлі комбинациялары үшін тану өнімділігі көрсетілген. Балалар мен ересектерге арналған тапсырмалар үшін бастапқы баллдар (GMM-HMM және 2-граммдық LM) сәйкесінше 9,87% және 17,97% құрайды. Өнімділіктегі бұл үлкен айырмашылық екі мәселеде де тілдік модельдің тиісті оқу жазбаларындағы шектеулі деректерді пайдалана отырып оқытылатындығына байланысты. Бұған кестедегі «Ts-LM» белгісі дәлел. Жақсырақ контраст үшін ересектер сипаттамалары Линкольнның 5k MIT сөздігімен (MIT-LM) стандартты LM биграммасы арқылы да салыстыруға болады. Ересектерге арналған MIT-LM тест жинағының WER көрсеткіші балалардың тест жинағымен айтарлықтай салыстырғанымызбен, оларды тікелей салыстыруға болмайды. Өйткені сөздік көлемі мен сөз жиілігі екі жағдайда әртүрлі болып келеді. Біздің тарапымыздан көбірек дайындалған тілдік болмауына байланысты балалар жағдайына ұқсас зерттеу жүргізілмеді. RNN-LM көмегімен ұзағырақ контекстік модельдеумен әділ салыстыру үшін 4 грамм LM өнімділігі де есептелді. I кестеден RNNLM акустикалық үлгілердің әртүрлі түрлерімен үйлескенде екі мәселеде де 2G және 4G LM құрылғыларымен салыстырғанда тану өнімділігі тұрақты түрде жақсырақ болатынын атап өтуге болады. RNN-LM DFNN және DLSTM акустикалық үлгілерімен үйлескенде балалардың сөйлеуді автоматты тануы үшін би-граммдық LM-ге қарағанда сәйкесінше 28% және 47% салыстырмалы өсім береді. Сөйлеуді автоматты тануда ересектер үшін бұл салыстырмалы өсу сәйкесінше 7% және 8% құрайды. MIT-LM құру кезінде пайдаланылған мәтіндік деректерге қолымыз жетпегендіктен, RNN / 4G LM үйрету мүмкін емес. Белгіленген үрдістер бұл жағдайда да жалғасады деп ойлаймыз.


Акустикалық модельдеу (AM)

Тілдік модельдеу (LM)

WER көрсеткіші, %

Балалар

Ересектер

Ts-LM

Ts-LM

MIT-LM

GMM-HMM

bi-gram

9.87

17.97

9.66

4-gram

7.96

17.76

-

RNN

7.29

16.49

-

DFNN-HMM

bi-gram

7.48

15.21

7.28

4-gram

5.92

14.89

-

RNN

5.38

14.06

-

DLSTM-HMM

bi-gram

6.00

15.11

6.89

4-gram

3.82

14.97

-

RNN

3.14

13.89

-

1-кесте. Ересектердің және балалардың автоматты сөйлеуін тану тапсырмаларындағы түрлі акустикалық модельдер мен тілдік модельдердің WER көрсеткіштері. ‘TS-LM’ бағаны тек акустикалық транскрипттер бойынша оқытылған тілдік модельдердің нәтижесі. Ересектер жағдайында нәтижелердегі контрастты жақсарту үшін стандартты MIT LINCOLN (MIT-LM) биграмма тілінің үлгісін пайдалана отырып нәтижелер алынды.

2-кесте. Мәтінмәнге нақты сәйкес келмейтін сөзді автоматты тану жүйесінде оқытылатын акустикалық және лингвистикалық модельдеу әдістерін бағалау көрсеткіштері.



Акустикалық модельдеу (AM)

Тілдік модельдеу (LM)

WER көрсеткіші, %

Default

+ VTLN

GMM-HMM

bi-gram

94.45

85.88

4-gram

93.29

84.66

RNN

92.52

83.16

DFNN-HMM

bi-gram

80.39

72.48

4-gram

78.40

71.25

RNN

77.61

69.75

DLSTM-HMM

bi-gram

74.82

66.85

4-gram

75.00

67.76

RNN

74.58

64.96

Көптеген акустикалық корреляциялардың үлкен айырмашылығына байланысты ересектер мен балалардың сөйлеуінде елеулі алшақтық бар екені белгілі [26]. Тұрақты сөйлеуді автоматты тану жағдайында RNN негізіндегі модельдеу арқылы қол жеткізілген нәтижелр айтарлықтай жақсартуларға негізделген, біз сондай-ақ өте сәйкес емес сөйлеуді автоматты тану контексті жағдайында бұл әдістерді зерттеуге кірістік [27]. Осы мақсатта балалардың сынақ жинағы сөйлеуді автоматты тану жүйесі арқылы декодталған, онда акустикалық және тілдік модельдеу ересектерден алынған мәліметтерді пайдалана отырып оқытылды және осы зерттеудің нәтижелері II кестеде жинақталған. Балалардың дауыс жолы ересектерге қарағанда әлдеқайда қысқа болғандықтан, ересектер мен балалардың сөйлеуі арасында маңызды форманттық шкала бар. Бұл мәселені шешу үшін дауыс жолдарының ұзындығын қалыпқа келтіру (VTLN) [28] балалардағы сөйлеуді автоматты тану жүйесінің сәйкессіздігі жағдайындағы акустикалық сәйкессіздікті азайтуда өте тиімді екендігіне қол жеткіздің. Сондықтан да балалардағы сәйкессіздікке тестілеуде VTLN көмегімен әрі қарай бағалау жүргізілді және бірдей шыққан нәтижелердің қорытындысы II кестеде көрсетілген. Кестеден байқағандай, елеулі сәйкессіздік болған жағдайда, зерттелетін тәсіл де салыстыру жағдайында көрсетілгенге ұқсас тенденцияларды байқауға болады.
V. ҚОРЫТЫНДЫ
Бұл жұмыста біз аз ресурсты автоматты түрде сөйлеуді тану тапсырмасы бойынша қайталанатын нейрондық желілерге негізделген тілді модельдеумен бірге ұзақ қысқамерзімді жадыға негізделген акустикалық модельдеуді зерттедік. Эксперименттік бағалау сөйлеуді автоматты түрде тану тапсырмаларына сәйкес келетің және сәйкес келмейтін балалардың сөйлеу моделі үшін орындалды. Зерттеу мұндай қайталанатын нейрондық желілерге негізделген модельдеу жүйесі қазір қолданылып жүрген DNN-HMM негізіндегі модельдеуден тіпті ресурсы төмен тапсырмада да тиімді болуы мүмкін екендігін көрсетті.
ПАЙДАЛАНЫЛҒАН ӘДЕБИЕТТЕР
[1] L. R. Rabiner and B. H. Juang, Fundamentals of speech recognition. PTR Prentice Hall, 1993.
[2] F. Jelinek, Statistical methods for speech recognition. MIT press, 1997.
[3] L. R. Rabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.
[4] P. F. Brown, P. V. Desouza, R. L. Mercer, V. J. D. Pietra, and J. C. Lai, “Class-based n-gram models of natural language,” Computational linguistics, vol. 18, no. 4, pp. 467–479, 1992.
[5] G. E. Dahl, D. Yu, L. Deng, and A. Acero, “Context-dependent pretrained deep neural networks for large-vocabulary speech recognition,” IEEE Transactions on Audio, Speech and Language Processing, vol. 20, no. 1, pp. 30–42, 2012.
[6] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. R. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath et al., “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, 2012.
[7] Y. Bengio, P. Simard, and P. Frasconi, “Learning long-term dependencies with gradient descent is difficult,” IEEE transactions on neural networks, vol. 5, no. 2, pp. 157–166, 1994.
[8] A. Graves, S. Fernandez, and J. Schmidhuber, “Bidirectional lstm´ networks for improved phoneme classification and recognition,” in International Conference on Artificial Neural Networks. Springer, 2005, pp. 799–804.
[9] I. Oparin, M. Sundermeyer, H. Ney, and J. L. Gauvain, “Performance analysis of neural networks in combination with n-gram language models,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2012, pp. 5005–5008.
[10] Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A neural probabilistic language model,” Journal of machine learning research, vol. 3, pp. 1137–1155, Feb 2003.
[11] e. a. Martin Sundermeyer, “Comparison of feedforward and recurrent neural network language models,” in ICASSP. IEEE, 2013, pp. 8430– 8434.
[12] M. Sundermeyer, R. Schluter, and H. Ney, “rwthlm-the rwth aachen uni-¨ versity neural network language modeling toolkit.” in INTERSPEECH, 2014, pp. 2093–2097.
[13] T. Mikolov, M. Karafiat, L. Burget, J. Cernock´ y, and S. Khudanpur,` “Recurrent neural network based language model.” in Interspeech, vol. 2, 2010, p. 3.
[14] H. Sak, A. W. Senior, and F. Beaufays, “Long short-term memory recurrent neural network architectures for large scale acoustic modeling.” in Interspeech, 2014, pp. 338–342.
[15] T. Mikolov, S. Kombrink, L. Burget, J. Cernockˇ y, and S. Khudanpur,` “Extensions of recurrent neural network language model,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 5528–5531.
[16] X. Chen, X. Liu, Y. Qian, M. Gales, and P. C. Woodland, “CUEDRNNLM–An open-source toolkit for efficient training and evaluation of recurrent neural network language models,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 6000–6004.
[17] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv preprint arXiv:1301.3781, 2013.
[18] D. Lin, “Automatic retrieval and clustering of similar words,” in Proceedings of the 17th international conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 1998, pp. 768–774.
[19] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[20] D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz et al., “The kaldi speech recognition toolkit,” in Workshop on automatic speech recognition and understanding, no. EPFL-CONF-192584. IEEE Signal Processing Society, 2011.
[21] L. B. Toma´s Mikolov, Stefan Kombrink and J.Cernocky, “RNNLM -` recurrent neural network language modeling toolkit.”
[22] M. Russell, “The PF-STAR British English Childrens speech corpus,” The Speech Ark Limited, December 2006.
[23] T. Robinson, J. Fransen, D. Pye, J. Foote, and S. Renals, “WSJCAMO: a British English speech corpus for large vocabulary continuous speech recognition,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 1, 1995, pp. 81–84.
[24] S. P. Rath, D. Povey, K. Vesely, and J. Cernocky, “Improved feature` processing for deep neural networks.” in Interspeech, 2013, pp. 109– 113.
[25] S. Balakrishnama and A. Ganapathiraju, “Linear discriminant analysis-a brief tutorial,” Institute for Signal and information Processing, vol. 18, 1998.
[26] S. Ghai and R. Sinha, “Exploring the effect of differences in the acoustic correlates of adults’ and children’s speech in the context of automatic speech recognition,” EURASIP Journal on Audio, Speech and Music Processing, no. 1, p. 318785, 2010.
[27] H. K. Kathania, S. Shahnawazuddin, and R. Sinha, “Exploring hlda based transformation for reducing acoustic mismatch in context of children speech recognition,” in IEEE International Conference on Signal Processing and Communications (SPCOM), 2014, pp. 1–5.
[28] E. Eide and H. Gish, “A parametric approach to vocal tract length normalization,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), vol. 1, 1996, pp. 346–348.

Достарыңызбен бөлісу:
1   2   3   4




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет