Орыс тілінен қазақ тіліне машиналық аудармада мәтінді синтаксистік талдау



Дата30.06.2016
өлшемі80 Kb.
#168586
УДК 004

ОРЫС ТІЛІНЕН ҚАЗАҚ ТІЛІНЕ МАШИНАЛЫҚ АУДАРМАДА МӘТІНДІ

СИНТАКСИСТІК ТАЛДАУ


Космагулова А.А.


Казахский Национальный Университет имени аль-Фараби
Научный руководитель - Рахимова Диана Рахимовна
Қазақ тілі - түркі тілдес тіл. Ол осы топқа жататын тілдерге ортақ қасиеттерді сақтаған жә­не өзіне көп ерекшеліктер тән. Қазақ тілінде диалект сөздердің болмауы аудармашы тап­сыр­масын біршама жеңілдетеді, өйткені ерекшеленген лексикалық немесе грамматикалық топтар бол­­майды. Зат есімдерде тек сияқты категориялар болмайды, бірақ меншіктік категориялар болады. Сын есімдер зат есіммен бірдей түрленбейді. Қазақ тілінде сөйлем мүшелерінің орналасу тәртібі қатаң: баста­уыш — толықтауыш — баяндауыш.

Қазақ тіліне аударма жасаған кезде, қазақ тілі мен орыс тілі бір бірінен тіпті мор­фо­логия­лық жағынан елеулі деңгейде өзгеше екенін ескеру қажет. Негізінен қазақ тіліне аудару­дың стандартты талаптары бар, ол дәстүрлі түрде үш негізгі этап бо­йынша жүреді: қолда­ну ай­ма­ғын анық­­тау, мәтінді қарастыру; құжатты кезекпен кезек ауда­рылатын жеке мағыналық бөлік­терге бөліп тастау; дайын мәтінді ақырғы өңдеу.

Қазіргі таңда елімізде іске асқан қазақ - орыс тілі аудармашылары көп. Олар онлайн режи­мінде жұмыс жасайды. Солардың ішінде негізгілері өз елімізден Soilem, және шет елдік Pragma 6 өнімі.

Бұл өнімдердің сапасын байқау үшін арнайы бір сөйлемді әрбіреуінде аудардым. Мысал: По последним данным, у нас до сих пор 20-25 % казахов плохо владеет родным языком.



Аудармасы: Соңғы мәліметтер бойынша бізде 20-25 % қазақ туған тілін нашар меңгерген.


1. Pragma 6
http://www.translate.ua/ Ша соңғы деректерлерге, бас біздің дейін сих кездердің 20-25 % қазақ кері жақын тілмен иеленеді.

3. SOYLEM
http://www.soylem.kz/
Соңғы мәлiметтер бойымен, дейiн бiзде 20-25 % Қазақты бұл мезгiл ана тiлiмен жаман иеленедi.

Алған нәтижемізден олардың кемшіліктері анық көрінді. Олар сөйлемдегі сөздерді орналасуы бойынша аударып, сөйлем мағынасын ескермейді. Осы кемшіліктерді жою мақсатында аудару әді­сі ретінде құраушылар грамматикасын негізге аламын.

Орыс тілінен қазақ тіліне машиналық аударудың алгоритмі.



Синтаксистік талдау үшін таңдалған әдіс.

Алдымен мәтінді талдау үшін құраушылар грамматикасын пайдаланамыз.



Құраушылар грамматикасы – төмендегідей тұжырымға негізделген. Тұжырым бойынша кез келген күрделі бірлік екі немесе одан да көп жай және бір бірімен қиылыспайтын бірліктер­ден құралады. Олар тәуелсіз құраушылар деп аталады.

Құраушылар – сөйлем құрамындағы құрылымдық бірліктер(қиықтар). Олар толығымен өлшемі бойынша өзінен кіші және бір бірімен тығыз байланысқан бірліктерден құралады. Құраушы құрамындағы сөз саны бірден көбейсе ол топқа айналады. Топты сипаттайтын тәуелділік тармағының діңгегіне жақын сөз топтың шыңы болады.

Топтардың классификациясы:

  • атаулы топ (noun phrase-NP)

  • сын есім тобы (adjectival phrase-Adj.P)

  • үстеу тобы (adverbial phrase-Adv.P)

  • септік топ (prepositional phrase-PP)

  • етістік тобы (verb phrase-VP)

  • сөйлем (sentence-S)

Мысал: Саша взяла книгу.


Мәтінді құрастыру үшін таңдалған әдіс.

Ақырғы мәтінді алу үшін сөйлемнің сәйкес құрылымдар кестесін(сұлбалар) пайдаланамыз ( құрамында сөз саны 1-ден 7-ге дейінгі жай сөйлемдердің орысша қазақша сәйкестік схемалары бар).



Мысал:

Аида купила книгу. Аида кітап сатып алды.

Подлежащее + Сказуемое + Дополнение → Бастауыш + Толықтауыш + Баяндауыш

Машиналық аударма бір ғана сөздің аудармасын қарастырмайды, ол енгізілген және шығатын тілдің грамматикалық, синтаксистік және басқа да ерекшеліктерін ескереді. Оның 3 түрі бар: статистикалық, алгоритм мен ережелерге негізделген және гибридті.


Алгоритмдерге негізделген аударма мәтінге жан жақты талдау жасайды: морфологиялық, синтаксистік. Соңғы сатыда программа дайын мәтінде сөйлемге талдау жасайды. Аудармашы қызметтерін ұсынатын тұлға да көлемі мен құрылымына қарай осындай жұмыс жасайды.
Статистикалық машиналық аударма сөздердің мәліметтер қорына талдау жасау арқылы іске асады. Бұл әдісте аударманың сапасына әсерін тигізетін грамматикалық құраушылар ескерілмейді. Көп жағдайда сөздері байланыссыз, сөйлемдер мағынасыз аударылады. Қазір статистикалық аударманың болашағы жарқын көрінгенмен бүгін ол ең тиімді әдіс емес. Аудармада сөздің немесе сөз тіркесінің дәл мағынасын таңдауға сөздердің мәліметтер қорының көлемі жеткіліксіз. Егер программа аударма кезінде грамматикалық алгоритмдерді ескеретін болса бұл әдіс әлдеқайда тиімді болар еді. Сол себепті алдымен грамматикалық алгоритмдердің сапасын арттыру керек.
Қолданылған әдебиеттер

  1. Апресян Ю.Д. Непосредственно составляющих метод // Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. — М.: Советская энциклопедия, 1990. — ISBN 5-85270-031-2

  2. Тестелец Я. Г. Глава II. Структура составляющих и фразовые категории // Введение в общий синтаксис. — М.: РГГУ, 2001. — 800 с. — 5000 экз. — ISBN 5-7281-0343-X

  3. Daniel Sleator and Davy Temperley. 1991. Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report CMU-CS-91-196, October 1991.

  4. Типология порядка слов. http://ru.wikipedia.org/wiki/SOV


Достарыңызбен бөлісу:




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет