Баекеева айнур толыбаевна


Машиналық аударма (MT) және автоматтандырылған аударма (CAT): Мәтінді автоматты өңдеу



бет22/41
Дата07.10.2022
өлшемі6.11 Mb.
#462141
1   ...   18   19   20   21   22   23   24   25   ...   41
baekeeva a t -povtor phd (s sop pis)

1.2.1 Машиналық аударма (MT) және автоматтандырылған аударма (CAT): Мәтінді автоматты өңдеу


Қазіргі таңдағы аударматану мен ақпараттық технологиялар тоғысында бағдарламалық аударма түрлері кеңінен қолданылып, жыл сайын машиналық аударманың сапасы жақсара түсуде. Аталған жазбаша аударманың түрінде мәтінді бір табиғи тілден екінші табиғи тілдегі эквивалентті мәтінге ауыстыруға жауапты мамандар ақпараттық технологиялар салаларында қызмет етіп жүр. Ақпараттық жүйе мамандарының машиналық аударманы жүйелі жолға қоюы үшін, оларды сапалы контентпен, яғни тексерілген, дұрыс мазмұнмен қамтамасыз ету қажет.
Машиналық аударма – бұл ауызша немесе жазбаша мәтінді бір табиғи тілден екінші тілге аудару үшін қолданылатын бағдарламалық жасақтамаларды зерттейтін компьютерлік лингвистиканың саласы. Қазіргі таңда машиналық аударманы автоматтық аударма немесе компьютерлік аударма деп те қолданып жүр. Машиналық және автоматтандырылған аударма туралы пікірлердің ара‑жігін ажырату үшін мына анықтамаларды қолданамыз.
Машиналық аударма (MT-machine translation) деп арнайы компьютерлік бағдарлама жасақтамаларының көмегімен бір табиғи тілдегі мәтіндерді екінші табиғи тілге аудару процесін атаймыз.
Автоматтандырылған аударма (CAT‑computer aided translation) дегеніміз арнайы компьютерлік бағдарламалар мен қосымшалардың көмегімен бір табиғи тілден екінші бір табиғи тілге аударылған мәтіндер негізінде мамандандырылған адамның өзінің кәсіби білімі мен дағдыларын пайдалана отырып аудару процесі.
Компьютерлік лингвистика мен мәтінді автоматты өңдеу тарихы 1950‑жылдардағы Джорджтаун экспериментімен тығыз байланысты. Машиналық аударманың алғышарттары XVII ғасырдағы математика ғылымының жетістіктерінен басталды. XX ғасырдың 30‑жылдары ғалымдар Д. Арцруни (Georges Artsrouni) мен П. Троянский машиналық аударма жұмыстарын бастады. Нәтижесінде 1954 жылы 60-тан астам орыс тіліндегі сөйлемдер ағылшын тіліне сәтті, толық әрі автоматты түрде аударылып, Warren Weaver мен Claude Shannon басшылық еткен Джорджтаун жобасы ең алғашқы сәтті жоба ретінде тіркелгенін M.J. Nye өз еңбегінде атап өтті [215]. Осы жоба тиімді нәтиже берген соң, машиналық аударма мәселелері басқа елдердің ғалымдарын да бей‑жай қалдырмады. Ең алғаш машиналық аудармада қостілді сөздіктердің қажеттіліктері байқала басталды. Осы себепті 1964 жылы машиналық аударма мәселелерімен айналысатын ALPAC (Automatic Language Processing Advisory Committee) Тілдерді автоматты өңдеу бойынша консультативтік комитеті құрылып, оны J. Pierce [216] мен T. Wilson басқарды [217].
1950‑жылдардың соңына қарай математик, лингвист әрі философ Y. Bar-Hillel машиналық аудармадағы сөздіктердің маңызы туралы «pen» сөзін қолдану арқылы ерекше түсіндіріп берген еді [218]. Қаламның (Ағыл. pen) қағаз жазудағы қызметін қаламның сабы емес, ішіндегі сиясы орындайтындығы сияқты, әмбебап энциклопедиясыз машиналық аударманың мәселелері ешқашан шешілмейді деген болатын. Мұндағы «әмбебап энциклопедия» деп тұрғаны тек қана екі тілді сөздік немесе ақпараттар жиынтығы ғана емес, яғни аудармаға қажетті сөздер, терминдер, сөздік мақалалар, синонимдер, антонимдер, морфологиялық және синтаксистік тілдік құбылыстардың жүйесі мен сипатын меңзейді.
Кейін машиналық аударманың статистикалық модельдеріне қызығушылық арта түсіп, 1980‑жылдары кеңінен тарала бастады. Бұл кезеңдерде мәтінді толық автоматты түрде жоғары сапалы аударудың автономды жүйесі болмаса да, біраз бағдарламалар бой көтере бастады. Осы бағдарламалардың негізгілері қазіргі таңда ақпараттық жүйе қолданушыларына қолжетімді, мысалы Google Translate, AltaVista, BabelFish бағдарламаларының негізі қаланған Systran жүйесінің негізі өткен ғасырда қаланған болатын.
Жасанды интеллект идеяларының эволюциясы 1960-жылдары қарастырыла бастады. 1980-1990 жылдар аралығында компьютерлік лингвистика қайта жаңғырып, корпустық тіл білімінде жаңа серпіліске ие болды. Осы кезеңдерде мәтіндік корпорацияларды құру, қолдау және пайдалану бойынша жобалар көптеп тартылды, олар әртүрлі тақырыптардағы және әртүрлі жанрлар мен стильдерде жазылған мәтіндерге баса назар аударды. Бұл серпіліс Brother, Catena, Fujitsu, Hitachi, Kodensha, Matsushita, Mitsubishi, Nova, Oki, Panasonic, Sharp, Sanyo, Toshiba сынды белгілі озық технологиялар саласындағы әлемнің алпауыт компанияларын бей‑жай қалдырмады.
Компьютерлердің пайда болуы бұл құрылғыларда анықтамалық мәтіндер жиынтығы бар корпустарды толығымен сақтауға, өңдеуге және күрделі есептеулер жүргізуге мүмкіндік берді. Сонымен бірге компьютерлер мәтіндермен жұмыс істеу үшін статистикалық әдістер мен машиналық оқыту әдістерін белсенді қолдану мүмкіндігіне де ие болды. Жалпы алғанда, 1990-жылдардың басында компьютерлік лингвистика саласында статистикалық әдістерге, кейін машиналық оқыту мен бұрыннан бар мәтіндерге қолданылатын деректерді талдау әдістеріне көше бастады.
Қазақстанда компьютерлік аударма мәселелерінің алғышарттарын 1970-жылдары математик ғалымдар Р. Пиотровский мен К. Бектаев қолға алды. Математика саласының ғалымдары қазақ‑орыс тілдеріндегі терминологиялық сөздіктерді түзуде математика саласының терминдерін жүйелеуге атсалысқан болатын. Ол кезеңдердегі компьютерлік аударманың алғышарттары көбінесе фундаменталды, яғни теориялық түрде қарастырылды. Ал қазіргі таңдағы ақпараттық технологиялардың дамуы барысындағы зерттеулер мүлдем жаңаша эмпирикалық өрісте дами бастады.
Мәтінді автоматты түрде өңдеудің теориялық негізі алғашында компьютерлік лингвистикада қаланып, онда машиналық оқыту әдістері, статистикалық талдау, Марков модельдері, Big Data ерекшеліктері ескерілді. С. Кузнецов осы әдістердің логикалық модельдері және модификацияларын қарастырды [219]. Мұндай модификацияның бірнеше тәсілдері бар, олар: алгоритмдерді параллельдеу, өлшемдерді азайту әдістерін қолдану, мәліметтерді алдын-ала өңдеу, т.б.
Ұлттық тілдердің арасындағы тілдік айырмашылықтарға қарамастан, лингвистикалық әдістер әмбебап бола алады, яғни кейбір морфологиялық және синтаксистік модельдер ағылшын және орыс тілдеріндегі мәтіндерді талдау үшін қолданылып келді. Соңғы жылдары қазақ тілінің, сондай‑ақ басқа да түркі тілдерінің мәтіндерін өңдеудің морфологиялық және синтаксистік мәселелерімен ақпараттық жүйе мамандары М. Самбетбаева және Ә. Ерімбетова айналысуда [28, 220]. Ғалымдар Digital Library онтологияға негізделген тезаурус мәселелері мен машиналық аудармаға қажетті Lingua Parser компьютерлік бағдарламаларын лингвистика мен аударматануға бейімдеумен айналысады.
Машиналық аударма бағдарламалары тіл синтаксисі мен қостілді немесе көптілді сөздіктерді пайдалану негізінде аударады. Осы ережелерге сәйкес, аударма бағдарламасы алдымен мәтінді бір тілде талдап болғаннан соң ғана оны басқа тілде түзеді, яғни басқа тілге аударады. Мұндай жүйелер ережеге негізделген компьютерлік жүйелер болып саналады, оларға Promt, Pragma, ProLing Office тәрізді бағдарламаларды жатқызамыз.
Мәтінді автоматты түрде өңдеу жүйесі үшін мәліметтерді енгізудің маңызды түрі морфологиялық сөздіктер болып табылады. Мысалы, көптеген ғылыми және коммерциялық жобаларда қолданылатын ақпаратты өңдеу жүйелері сандық сөздіктерді пайдаланады. Тезаурустар немесе басқа да семантикалық желілер жоғары сұранысқа ие. Мұндай дереккөздердің арасындағы ең танымалы – WordNet тезаурусы. Бұл тезаурус мағыналық қатынастар деп аталатын сөздерді байланыстыратын ресурс, яғни синонимдер, гиперонимдер, гипонимдер және т.б. метадеректерді машиналық аударма, мәтін құру, мәтінді жіктеу тапсырмаларында автоматты түрде пайдаланады. РҒА СБ Новосібір мемлекеттік университеті, Есептеу технологиялары институты мен Л.Н. Гумилев атындағы Еуразия ұлттық университеті арасындағы біріккен жоба аясындағы салалық терминдердің көптілді басқарылмалы тезаурусы интероперабельді. Тезаурустың интероперабельділік сипаты ақпаратты іздеу (Information Retrieval) кезінде WordNet тезаурусының метадеректерімен ақпарат алмасу мүмкіндігін береді. Д. Ильвовский мен Е. Черняктың пайымдауынша кез келген мәтінді автоматты өңдеу мына деңгейлерде жүргізіледі [221]:

  • мәтінге графикалық талдау арқылы мәліметтер деректерінен сөйлемдер мен сөздерді (токендерді) шығару;

  • мәтінге морфологиялық талдау арқылы сөздің грамматикалық негізін бөліп көрсету, сөз таптарын анықтау, сөзді сөздік формасына келтіру;

  • мәтінге синтаксистік талдау арқылы сөйлемдегі сөздердің бір‑бірімен синтаксистік қатынастарын ашу, сөйлемнің синтаксистік құрылымын жасау;

  • мәтінге семантикалық талдау арқылы сөздер мен терминдердің сематикалық және синтаксистік топтар арасындағы мағыналық қатынастарын ашу.

Ғалымдар құрылымдалмаған мәтіндерді автоматты түрде өңдеуге арналған жүйелерді біріздендіру мен жіктеу қажет деп есептейді (сурет 7).



Сурет 8 – Д. Ильковский мен Е. Черняктың мәтінді автоматты өңдеу бағдарламаларына жасаған талдауы


Ескерту – Әдебиет негізінде құралған [221]


Осы диссертациялық жұмысымыздың практикалық нәтижесі болып табылатын, осы зерттеу аясында құрастырылған тау‑кен терминдерінің көптілді басқарылмалы тезаурусы машиналық аударманың семантикалық қырларын ашады.


Статистикалық аударма бағдарламаларындағы параллель мәтіндердің кең ауқымды дерекқоры бұған дейін аудармашылар жасаған миллиондаған сөздер мен сөз тіркестеріне талдау жасау арқылы қол жеткізеді. Мәтінді өңдеу кезінде аталған аударма бағдарламалары ықтималдықтың статистикалық теориясына сәйкес мәліметтер қорынан толықтай немесе жартылай сәйкес келетін үзінділерді іздеп тауып, аударманың кең таралған нұсқаларына алмастырады. Google автоматты аударма жүйесі 2007 жылдан бастап осылайша қызмет етіп келгенін А. Калашников және М. Тимофеева атап өтті [222-224], бірақ кейінірек мұндай автоматтандырылған аударма түрі нейрондық желілер негізінде аудара бастады. Қазіргі таңда аударманың гибридті жүйелері кеңінен орын алуда, аталған жүйелер негізінен статистикалық әдіс ережелері мен нейрондық желілер әдістері арқылы жүзеге асады.
Машиналық аударма жасайтын бағдарламалардың сәйкес сөздер мен баламаларды іздеу барысында негізінен электрондық сөздіктерге жүгінетіні құпия емес. Сөздіктер базасына баспада басылған сөздіктердің электрондық нұсқалары немесе белгілі бір электрондық сөздіктер жатады. Мұндай сөздіктерге ABBYY Lingvo жатады. Машина, яғни компьютерлік жасақтама мұндай сөздіктердің ішіндегі метадеректерді тек қана сыртқы форматы мен салмағына қарай ғана анықтай алады, яғни MS word немесе PDF форматындағы құжаттарды кб, мб, гб тәрізді салмағымен ғана анықтайды.
Ал біздің Digital Library веб‑платформасында құрастырылған басқарылмалы тезаурустар бірінші буын негізінде құрастырылған машиналық аударма жүйелерінің ережелеріне сәйкес қолданылады. Машиналық аударма кезінде мәтін синтаксистік, морфологиялық, семантикалық және басқа да талдау кезеңдерінен өтеді. Ал басқарылмалы тезаурустардағы терминдер, сөздік мақалалар, яғни тезаурустың мазмұны машиналық аударманың архитектуралық жүйесінің құрамдас бөліктерінің бірі ретінде машиналық және автоматтандырылған аудармада семантикалық талдау кезеңінде жүзеге асады.
Қазіргі таңда Қазақстанда да машиналық аударма жасаудың алғышарттары жасалуда. Статистикалық және нейрондық желілер негізіндегі ресурстарды біріктіретін гибридті бағдарламаны Әл-Фараби атындағы Қазақ ұлттық университеті зертханасында профессор У. Тукеевтің басшылығымен Д. Рахимова жасады. Аталған бағдарлама ағылшын-қазақ машиналық аудармасын атқарады [29].
Бұл жобада ҚазҰУ тезаурустардың ресурстарын тура пайдаланбайды, бірақ машиналық аударудың статистикалық әдісі үшін параллельді корпустарды пайдаланады. Әл-Фараби атындағы ҚазҰУ қазақ тілінің параллельді корпусын құрумен Ж. Жұманов, А. Мадиева, Д. Рахимова айналысады [225].
Л.Н. Гумилев атындағы Еуразия ұлттық университетінде Л. Жеткенбай қазақ‑түрік тілдері арасындағы машиналық аударма модельдері мен әдістерін жасаумен айналысады [31].
Ағылшын‑орыс тілдерінің машиналық аудармасы алыс‑жақын шет елдерде біршама дамыған және қазір компьютерлік бағдарламалардың қолжетімділігі жағдайында ол жетістіктердің нәтижесін біз де қолданудамыз. Ал қазақ‑ағылшын немесе қазақ‑орыс тілдерінің машиналық аудармасына келсек, мұнда қазақ тілінің базасын жасау қазақстандық ғалымдардың еншісіне тиеді. Ағылшын немесе орыс тілінен қазақ тіліне машиналық аударманың семантикалық, морфологиялық модельдері мен әдістерін зерттеуші ғалымдар табиғи тілдегі мәтіндерді аударудағы негізгі қиындықтарға мыналарды жатқызады: сөздердің көпмағыналығы, қазақ тілінің синтаксистік құрылымы, шектеулі пән саласының семантикалық құрылымын сипаттаудағы қиыншылықтар, лингвистикалық заңдылықтарды сипаттаудың тиімді формалды әдістерінің болмауы және т.б. [28, б. 9].
Ұлттық тіл корпустары – мәтіндегі ақпараттық өңдеу жүйелерінің ажырамас бөлігі болып табылады. Корпустағы әрбір сөз жан-жақты грамматикалық сипаттамалармен қамтамасыз етіледі, яғни корпуста әрбір тілдік бірлік жан‑жақты талданып, олардың формасы мен семантикалық, морфологиялық және синтаксистік рөлдері көрсетіледі. Корпустар мәтіндерді толыққанды жіктеу мәселелерін шешуге арналған бағдарламаларға үйрету үшін бастапқы деректер ретінде қызмет етеді.
Машиналық аударма бағдарламаларын даярлау үшін әр түрлі тілдердегі бірдей мәтіндерден тұратын параллель корпустар қолданылады. Әдетте, корпустар бірнеше ондаған жылдар бойы жинақталған түбегейлі еңбекті талап ететін жоба. Қазақстанда бір ғана «Қазақ тілінің Алматы корпусы» қызмет етеді // http://web-corpora.net/KazakhCorpus/search/?interface_language=ru. Дегенмен Қазақ тілінің Алматы корпусы тек қана көркем әдебиет пен периодикалық және публицистикалық шығармалар негізінде жасалған. Аталған корпуста пән салаларының терминдері қарастырылмаған, осылайша бұл қазіргі замануи аударматанушылардың алдына үлкен мақсат пен міндеттерді артады. Бұл дегеніңіз қазіргі озық технологиялардың күн санап қарыштап дамуы жағдайында аударматанушылар тек қана аударманы тіл білімі саласынан ғана емес, сонымен бірге пәнаралық бағытта, компьютерлік лингвистика, пән салалары, салалық терминология мен салалық аударма тоғысында зерттеп, осы салаларда жылдар бойы атқарылып келген ақпараттарды жүйелеп, біріздендіріп, электрондық басқарылмалы платформаларға жүктеу жұмыстарын атқарудың қажеттілігін көрсетеді.
Автоматтандырылған аударма жүйелері аудармашылардың өз аударма ісінде қолданатын мамандандырылған бағдарламалары мен қызметтерінің жиынтығы болғандықтан, олар түрлі пән салаларындағы аудармаларды уақыт үнемділігін сақтай отырып жасауға өте қолайлы.
Машиналық және автоматтандырылған аударманың негізгі қызмет түрлері бірнеше бөліктерден тұрады:

  • мәтіннің грамматикасы мен сөздердің жазылуын автоматты түрде тексеруге көмектесетін дербес немесе кіріктірілген редакторлар;

  • салалық терминологияны басқаруды қамтамасыз ететін бағдарламалық жасақтама, кестелер, мәтіндік редакторлар (Мысалы, MultiTerm, Termex және т.б.);

  • пән салаларының мәтіндерін аударуды басқаратын бағдарламалық жасақтамалар;

  • бұрын аударылған мәтіндердің немесе сөйлемдердің үлгілері сақталатын аударма жадысын (TM, Translation Memory) қолданатын автоматтандырылған аударма құралдары (CAT). Мұндай бағдарламаларға Across, AfterScan, Catnip, DejaVu, MemoQ, MemSource, MetaTexis, MultiTerm, OmegaT, SmartCat, StarTransit, Trados, Transit, Wordfast, Wordfisher, XTM, т.б. жатады;

  • бір немесе бірнеше тілдердің қолданысындағы құжаттардың деректер базасы, яғни корпусы. Корпустардың көмегімен пән саласындағы аудармаларға қатысты ақпараттар өңделеді.

Машиналық аударма кезінде қажетті сөздер мен терминдерді компьютер автоматты түрде өзі орындайтын болса, автоматтандырылған аударма кезінде аудармашы түрлі бағдарламалық жасақтамалар арқылы қосымша ақпаратты іздеумен жеке айналысады. Жоғарыда аталған бағдарламаларға қоса басқа да ақпараттық реппозиторийлар мен параллель мәтіндер сақталған бағдарламалық жасақтамалар арқылы жеткіліксіз деңгейде қамтылған лексикалық бірліктерге балама іздеу мүмкіндігіне ие. Мұндай бағдарламаларға мыналарды жатқызамыз:

  • Abbreviations.com // https://www.abbreviations.com/ [226],

  • EC Speech Repository // https://webgate.ec.europa.eu/sr/ [227],

  • Eurotermbank // https://eurotermbank.com/collections [228],

  • Glosbe // https://ru.glosbe.com/ [229],

  • Glossary Assistant // http://swiss32.com/ [230],

  • Interpreter Training Resources // http://interpretertrainingresources.eu/language/#vocab [231],

  • IATE // https://iate.europa.eu/home [232],

  • InterpretBank’s Glossary Bank // http://interpretbank.eu/glossaryBankSearch [233],

  • Lookup Terminology Management // http://www.lookup-web.de/index.php [234],

  • Mutltitran // https://www.multitran.com/,

  • Reverso Context // https://context.reverso.net/ [235],

  • Terminus // http://www.wintringham.ch/cgi/ayawp.pl?T=terminus [236],

  • TERMplus // http://www.termplus.dk/uk_about_us.html [237],

  • Termincom.kz // http://termincom.kz/termins,

  • Sozdik.kz // https://sozdik.kz/ [238].

Цифрландыру процесі әлемде қанатын кең жайғанымен, қазақ тілінің мазмұнын ағылшын және орыс тілдерінде қатар үштілді бағытта аударып бір компьютерлік платформаға орналастыру әлі мүмкін болмай отыр. Осы көптілді сөздіктерді, анықтамалықтар мен репозиторийларды зерттей келе, Қазақстанның цифрландыру жағдайындағы машиналық және автоматтандырылған аударма жасауға келтіретін басты қиыншылықты анықтадық. Аталған дереккөздердің барлығы дерлік көптілді, алайда біздің үштілді Қазақстандағы қазақ, ағылшын және орыс тілдерінде бірдей аударма жасау талаптарына жауап бермейді. Бұл үштілді немесе көптілді басқарылмалы сөздік пен тезаурусты құрастыру өзектілігін жоймаған мәселе екендігін көрсетеді. Сөздік дерекқорлардың қазақ, ағылшын және орыс тілдеріндегі терминдерімен қамтылғандығын төмендегі кестеден көруге болады (кесте 5).

Кесте 5 – Компьютер көмегімен орындалатын аудармаға арналған сөздіктер





Сөздік
атауы

Қазақ тіліндегі контенттің болуы

Ағылшын тіліндегі контенттің болуы

Орыс тіліндегі контенттің болуы

1

2

3

4

Abbreviations.com









EC Speech Repository








Eurotermbank









Glosbe








Glossary Assistant








IATE









Interpreter Training Resources









InterpretBank’s Glossary Bank









Lookup Terminology Management









Multitran








Reverso Context








Terminus









TERMplus









Termincom.kz








Sozdik.kz








Ескерту – Автор құрастырған


Сонымен машиналық және автоматтандырылған аударманың бағдарламалық жасақтамаларымен айналысатын мамандардың пікірінше компьютер бағдарламаларында орындалатын аударма белгілі бір тар тақырыпта немесе пән саласында қабылданған арнайы терминологиялық сөздіктер түзіліп, сондай-ақ өңделген құжаттардың түрлері қайталанған кезде ғана жүзеге асады деп есептейді. Ал аталған терминологиялық сөздіктер электрондық басқарылмалы платформада құрастырылуы қажет.




      1. Достарыңызбен бөлісу:
1   ...   18   19   20   21   22   23   24   25   ...   41




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет