А.К. Бурибаева, А.А. Шарипбаев, Г.Т. Бекманова, М.Х. Карабалаева, Б.Ж. Ергеш
Аппаратная реализация синтеза словоформ казахского языка с помощью ассоциативной памяти
(Евразийский национальный университет им. Л.Н.Гумилева, г. Астана)
В работе приводится метод аппаратной реализации генерации слов казахского языка с помощью ассоциативного запоминающего устройства. Результаты работы могут применяться в интеллектуальных системах обработки ЕЯ текста. Ассоциативный поиск обеспечит быстродействие системы.
Автоматизация (программная или аппаратная реализация) синтеза словоформ любого естественного языка производится на основе формализации морфологических правил. Использование семантических сетей для формализации морфологических правил позволяет учитывать не только структурные, но и семантические признаки. Кроме того, использование семантической сети для этой цели позволяет осуществлять ассоциативно- семантический поиск.
В условиях резкого увеличения объема Интернет-ресурсов на естественном языке, требует создание и использование быстродействующих семантических поисковых систем, без которых немыслимо будущее развитие информационного общества.
Казахский язык является государственным языком Республики Казахстан и Интернет-ресурсы помимо других языков, должны обязательно разрабатываться и на родном языке.
Достаточно эффективные системы обработки естественно-языковых текстов существуют для английского, китайского, испанского, японского и русского языков. Для казахского же языка подобных разработок (аппаратных) не существует.
Морфологические признаки выделяются по следующему принципу. Определяется последняя буква начальной формы слова и относится к одной из следующих категорий (Рисунок 1). В соответствии с этими признаками осуществляется добавление того или иного окончания [1].
В казахском языке действует закон сингармонизма звуков и слогов, который обуславливает добавления мягких или твердых окончаний в зависимости от мягкости или твердости основы (неделимого корня или корня с суффиксом) соответственно.
Скажем, при решении задачи требуется узнать наличие какого-либо значения в запонминающем устройстве. Для этого нужно произвести чтение всех значений в N ячеек памяти и сравнить их с данным числом. После N оперций чтения и сравнения можно получить следующий результат: 1) данное число равно числу в Nі ячейке; 2) данное число равно числам Nі, Nj, Nk ячеек (многозначный ответ); 3) данное число не равно ни одному числу записанному в запоминающем устройстве. Таким образом, при процессе чтения и сравнения значений выполняется обратная задача адресному поиску [2].
Рисунок 1. Дерево морфологических признаков
При добавлении окончаний морфологические признаки последнего звука слова можно определить с помощью подобного ассоциативного запоминающего устройства.
В составе ассоциативного запоминающего устройства имеется регистр признаков запроса (РгПЗ), регистр результата поиска (РгРП), матрица памяти, в которой сохранены казахские звуки в 8-разрядном двоичном коде, регистр морфологических признаков звуков и логическое устройство (Рисунок 2).
Регистр признаков звука может иметь 6 состояний в зависимости от последнего звука слова: 001 – гласный, твердый, 010 – гласный, мягкий, 011 – согласный, глухой, 100 – согласный, звонкий, 110 - согласный, сонорный.
Допустим, в регистр признаков запроса поступил звук «е» (11100101), и нужно определить морфологические признаки этого звука.
Сравнение производится по каждому разряду. Сначала старший разряд РгПЗ сравнивается со старшими разрядами всех данных в матрице. Конечно, у всех звуков поиск выдаст положительные результаты, и состояние РгРП остается без изменений. При сравнении второго разряда поиск выдаст отрицательные результаты у 3, 8-11, 15, 21, 28-звуков, при сравнении третьего разряда у 3, 5-7, 9,10, 15, 21, 28-звуков, при сравнении четвертого разряда у 3-11, 15-18, 21-23- звуков, при сравнении пятого разряда у 2, 4-10, 13-15, 18-21, 24, 25-звуков, при сравнении шестого разряда у 1, 3, 4,,9, 11, 14, 16-18, 22-28-звуков, при сравнении седьмого разряда 2, 4-6, 8-11, 13, 14, 17, 23, 25, 27, 28, 30, 31-звуков и при сравнении 8 разряда у 1-3, 5, 8, 9, 14, 17-19, 21-22, 29-30-звуков и устанавливает соответствующие триггеры РгРП в состояние «1».
Рисунок 2. Ассоциативное запоминающее устройство
В результате соответствующие триггера всех звуков исключая 12 устанавливаются в состояние «1». Состояние «0» триггера РгРП двенадцатого звука будет ответом ассоциативного поиска: код регистра признаков запроса соответстувет коду первой строки матрицы. В результате обработки кода РгРП логическим устройством в регистре признаков звука фиксируется значение «010». Это означает, что звук «е» является мягким гласным.
В данной работе описано современное состояние проблемы обработки естественного языка. Автором впервые для казахского языка спроектировано ассоциативное запоминающее устройство для определения морфологических признаков последнего звука при добавлении окончаний. Результаты работы могут применяться в интеллектуальных системах обработки ЕЯ текста.
ЛИТЕРАТУРА
1. Бекманова Г.Т. Методы и алгоритмы распознавания слов казахского языка/ Бекманова Г.Т.//Астана, 2010 – 132 с.
2. Шахнов, В.А. Комплекты интегральных микросхем/В.А .Шахнов// М.: Высш. Шк., 1988. – 175 с.
Бөрібаева Ә.К., Шәріпбаев А.Ә., Бекманова Г.Т., Қарабалаева М.М., Ергеш Б.
Қазақ тіліндегі сөздерді синтездеуді ассоциациялық жады көмегімен аппаратты жүзеге асыру
Жұмыста қазақ сөздерін генерациялаудың ассоциативті есте сақтау құрылғысының көмегімен аппараттық жүзеге асырылуы келтірілген. Еңбектің нәтижесі ТТ мәтіндерді өңдейтін интеллектуалды жүйелерде қолданылуы мүмкін. Ассоциативті іздеу жүйе жұмысының жылдамдығын арттырады.
Buribayeva A., Sharipbayeva A., Bekmanova G., Karabalayeva M., Yergesh B.
Hardware realization of synthesis of word forms of the Kazakh language by means of associative memory
The method of hardware realization of semantic models of representation and processing of morphological rules of the Kazakh language by means of an associative memory on an example of generation of word forms is resulted in work. Results of work can be applied in intellectual systems of processing NL of the text. Associative search to provide speed of system.
Достарыңызбен бөлісу: |