Диссертациялық зерттеу жұмысының тірек сөздері ретінде басқарылмалы сөздік (Controlled vocabulary), басқарылмалы тезаурус (Controlled thesaurus) ұғымдары қолданылады. Басқарылмалы сөздік деп ақпаратты іздеу (Information Retrieval) мен машиналық аударманың (MT) кәсіби талаптарына сәйкес келетін интероперабельді сөздікті атаймыз. Тезаурус дегеніміз салалық терминдердің кешенді электрондық сөздігі. Тезаурус интероперабельді жүйеде жасалып, түсіндірме сөздік, аударма сөздік, көптілді сөздік, синонимдер сөздігі, идеографиялық сөздік және терминологиялық сөздік тәрізді сөздіктердің бірнеше түрін қамтиды. Зерттеудегі семантикалық тәсіл деп ақпаратты компьютерлік іздеудегі мазмұндық компонентті атаймыз.
Digital Library веб‑платформасында тау‑кен терминдерінің көптілді рубрикациясын жасау үшін қазақ тілінің тау‑кен терминдері зерттелді. Тау-кен терминдеріндегі металл және минерал атаулары негізінен қазақ тілінің байырғы лексикалық қорынан құралаған. Әдетте жаңадан енген халықаралық терминдер жабдықтар мен технологиялардың атауларын білдіреді. Ағылшын және орыс тілдерінде салалық терминдердің орнына химиялық элементтердің номенклатуралық атауларының қысқартылған түрлері де жиі қолданылады, мысалы: Au, Ag, Cu, Fe, Zn, және т.б.
Осы диссертациялық зерттеу жұмысының аясында құрастырылған тезаурус бірнеше халықаралық (ISO) және ұлттық стандарттарға негізделіп құрастырылды (ГОСТ Р 7.0.91-2015 (ISO 25964-1:2011), ISO 25964-2:2013, ISO 25964-1:2011, ҚР СТ 34.022-2006, ҚР СТ 34.019-2005 (ISO/IEC 12207:1995, MOD), ҚР СТ 34.002-2004, ANSI/NISO Z39.19-2005, ANSI/NISO Z39.50-2003, ISO/IEC 13250:2003, ISO/IEC 13250:2000, ИСО МЭК ТО 12182-2002, ҚР СТ 34.005-2002, ISO 2788:1986, ISO 5964:1985).
Біздің ұсынып отырған басқарылмалы интероперабельді тезаурусымыз Новосібір мемлекеттік университетінің Есептеу технологиялары институтымен бірлесіп халықаралық Zthes деректер схемасы негізінде құрастырылды. Ақпараттық технологиялардағы сала терминдерінің тезаурусын құрастыруға арналған жетістіктер мен мәліметтер базасына салыстырмалы талдау жасау арқылы осы схема таңдап алынды. Zthes деректер схемасы жоғарыда аталған халықаралық стандарттарға сай жасалған әрі интероперабельді. Құжаттың құрылымы мен мазмұны ашық жүйелер шеңберіндегі стандарттарға сәйкес халықаралық деректер схемаларына сай сипатталады. Мұндай деректер схемасында жасалған тезаурустар ақпаратты іздеудің де, идеографиялық сөздікпен қоса басқа да бірнеше сөздіктің қызметтерін жүзеге асыруға арналған әр түрлі міндеттерді шешуге мүмкіндік береді.
Тау‑кен терминдерінің тезаурусы үштілді: қазақ, ағылшын және орыс тілдері қамтылған. Тезаурустың неміс, француз тілдерін қамту мүмкіндігі бар. Аталған бағдарламалық жасақтама бірлескен жоба аясында құрастырылып, ақпаратты іздеуге арналған тезаурусты негізге алады. Бұл тезаурус ISO 25964-1:2011 (бірінші бөлім) және ISO 25964-1:2013 (екінші бөлім) соңғы халықаралық стандарттары негізінде құрастырылды // https://www.niso.org/schemas/iso25964. Аталған стандарттар негізінде құрастырылған тезаурус басқа да халықаралық тезаурустармен өзара әрекеттесу мүмкіндігіне ие. Тезаурус машиналық (MT) және автоматтандырылған (CAT) аударманы арнайы пән саласы үшін орындау кезінде қолданылады. Осы тезаурусқа енгізілген қазақ, ағылшын, орыс тілдеріндегі мазмұнды аудармаға арналған компьютерлік жасақтамалар көре алады. Сонымен бірге тезаурустағы метадеректер релевантты ақпаратты іздеу процесіне қатыса алады.
Қазіргі таңда Л.Н. Гумилев атындағы ЕҰУ Ақпараттық технологиялар кафедрасы мен Аударма теориясы мен практикасы кафедрасы бірігіп пәнаралық байланыс орнатты. Осы пәнаралық зерттеулер аясында ғылыми білім беру қызметтерін лингвистикалық қолдау мақсатында Digital Library, PostgreSQL DMS, Protégé бағдарламалары бойынша жұмыстар атқарылуда. Аталған бағдарламалық жасақтамалар халықаралық ISO 25964 стандартына негізделген. Осы бағдарламаларды қолдана отырып тау‑кен терминдерінен басқа да пән салаларының тезаурустарын құрастыру жұмыстары жасалуда (Салық ісі, Зергерлік бұйымдар атаулары, Құрылыс саласы, Дипломатия қызметі, т.б.). Мұндай көптілді алгоритм аударма ісіндегі ақпарат алмасу мәселелерін түбегейлі шешуге қолайлы.
Тезаурус және сөздік тақырыптың негізгі ұғымдарын ашып, пайдаланушы үшін ерекше қызығушылық тудыратын пәнаралық байланыстарды сипаттайды. Әдетте пән саласы белгілі бір оқу курсымен шектеледі. Аударма ісі мамандықтарында сала терминдері жекелеген пән ретінде оқытылмайды. Осы орайда тезаурустағы мәліметтер аудармашыларға жекелеген пән саласы бойынша жалпы ақпаратты иерархиялық байланыста түсіндіре отырып, олардың аудармаға қажетті лингвистикалық бірліктерін ұсынады. Ақпараттық және қосалқы ғылым мен білім жүйелерінде мамандандырылған көптілді тезаурус құрастыру мен оны аудармашылардың қызметінде ғана емес, сондай‑ақ пәнаралық байланыс аясында пайдалану басқа да мамандардың қызығушылығын тудырып, оларды мүлдем басқа сапалы деңгейге шығаратыны сөзсіз.
Ақпараттық іздеу тезаурусы (Information Retrieval Thesaurus) – бұл іздеу тілінің лексикалық бірліктерінің сөздігі, мұнда бірліктер арасындағы парадигматикалық және семантикалық қатынастар көрсетілген [267].
Ақпаратты іздеу тілі (Information Retrieval Language) – бұл құжаттарды индекстеуге, ақпараттық сұраныстарға және кейінгі сақтау мен іздеуге арналған фактілерді сипаттауға арналған формаландырылған жасанды тіл [268].
Ақпараттық іздеу тезаурусын құрастыруда негізінен мынадай түсініктер пайдаланылады:
Достарыңызбен бөлісу: |