1.1 Бастауыш сынып оқулықтарының лексикалық жүйесін зерттеуде статистикалық әдісті қолдану
Қазіргі таңдағы ғылым адам мен оны қоршаған ортаны танып-білуде түрлі әдістер мен тәсілдерді қолданып отырғаны белгілі. Біздің сөзім мүшелеріміз бсн қарапайым бақылау құралдары арқылы қабылдауға, тануға болатын нысаналар мен құбылыстарга тікелей бақылау әдістері қолданылады. Тіл білімінде негізінен осы әдістер дыбыстар мен фонемалардың, сөздер мен сөз тіркестерінің құрылымы мен өзгерістерін бақылауда жиі пайдаланылады [29,15]. Бірақ қазіргі зерттеушілер тікелей бақылауга қиындық келтірген нысаналар мсн олардың жиынына жиі кездесуде. Оның басты себептері зерттеуге негіз етіп алынған нысананың қиын да күрделі ішкі құрылымы және адамның миы мен сезім органдарының шектеулі мүмкіндіктері болып саналады. Мысалы, кейбір зерттеу нысаналарының өтс кішкенс немесе шамадан тыс үлкендігінен оларды тікелей бақылау қиындық туғызбай қоймайды. Сол сияқты лингвистикалық құбылыстарда да өте күрделі, біртұтас орі көзге анық байқалмайтын болғандықтан қарапайым түрде бақылауға алу қиын. Біздің зерттеу нысанамыз да (БСО мен БӘ) осындай күрделі әрі көлемді болып саналатындықтан, бұл нысананы тікелей бақылауға алудан бас тартуға мәжбүр боламыз да, қосымша әдіс-тәсілдерді, мысалы, тікелей бақылау мен зерттеуге нысананың езі емес, оның моделі негізғе алынатын модельдеу әдісін қолданамыз. Модель дсп - құрылымы мен қызметі жағынан түпнұсқаны елестететін немесе қайталайтын нысаналар жүйссін айтамыз. Қолданбалы лингвистикада мәтінді талдау жәнс жинақтау алгоритмдерін құруда модельдсу әдісі негізгі әдістің бірі болып табылады [30,16].
Модельдер түпнұсқаның ішкі құрылымын зерттеу және анықтау мақсатында, сонымен бірге оның қалыптасуы мен дамуын түсіндіру үшін қолданылады. Зерттеуімізде квантитативті-лингвистикалық модельдеу әдісін қолданамыз. Модельдің түрін анықтау мен оны құру барысында төмендегі жалпы срежслер қатаң сакталуы тиіс:
Модель - объективті дүнисні аналогия жолымсн бсйнелеудің ерекше түрі болып табылады (модсль - зсрттелетін нысананың көшірмесі емсс, аналогиясы) [16,30].
Модель түпнұсқаға қарағанда күрделі болмауы, ал оны қолдану нысананы зерттеудің басқа әдіс-тәсіддерімен салыстырганда уақыт пен күшті үнемдейтіндей болуы қажет [29,7].
Модель түрлі нысаналарды бейнелеп, түсіндіругс мүмкіндік беретін жан-жақты әрі жалпылама сипатқа ис болуы тиіс.
Модель деп - жасалынған эксперимент үшін ерекше маңызға ие түпнұсқаның өзіндік белгілсрі мен қасиеттерін көрсете және түсіндіре алатын болуы тиіс [29,8].
Зерттеу барысында 1950-2000 жылдардағы БСО мәтіндеріне жасалынған статистикалық мәліметтерге сүйенетін боламыз. Ол үшін зерттеуге негіз стіп алынған нысана мен оның моделі арасындағы сәйкестікті, яғни сәйкестілік коэффициентін анықтап алу керек [16,31]. Мұны лексикалық бірліктсрдің (белгіленген мәтін колеміндс) жиілік сөздік (ЖС), алфавитті-жиілік сөздік (АЖС) және кері алфавитті-жиілік сөздіктерін (КАЖС) алу жолымен орындауға болады [31,10]. Бұл сөздіктер зерттеуге негізге алынған 50 ж. БСО мәтіндері мен онымен салыстырылатын 1970-2000 жылдардағы БСО және БӘ мәтіндерінің квантитативті моделі рстіндс біздің тікелей бақылауымыздан тысқары түпнұсқаның немесе нысананың орнына қарастырылады. Бұл үшін алдымен зерттеуге қажетті мәтін көлемін анықгап алуымыз керек.
Сөздің жиілік тізімін жасауға кірісксн зерттеуші ең аддымен жеткілікті мөлшердегі мәтін колсмін анықтап алуы тиіс. Тандама көлемін анықтау - лингвостатистиканың сң маңызды мәселелерінің бірі. Қажетті, мүмкін болатын бұл мәтін колсмі іске асу мүмкіндіктерін есепке алғандағы статистика теориясының талаптары негізінде анықталады. Тандама мәтініне жүргізілген зсрттсулер нәтижесінде анықталған зандылықтардаи туындайтын қорытындылар тұтас мәтіннің заңдылыкхары жайлы тұжырымдар жасауға мүмкіндік береді [32,54].
Лингвостатистикада сенімділіктің бслгілі бір шамаларында
статистикалық мәндерді бағалауға жоне жиілік сөздіктіц бірліктсрі
үшін қажетті жсткілікті мөлшердегі жиын колсмін анықтауға мүмкіндік беретін мысалдар аз емес [32.55].
Лингвостатистикалық зерттеулерде қажстгі таңдама көлемін анықтау үшін моделі таңдалған мәтіннің статистикалық жағынан -еншді мөлшердегі сөздігін алу қажст болған жагдайда зерттеуге алынған таңдама көлемі жайында алдын-ала мағлұмат алуға, оны ағалауға мүмкіндік беретін қатынасты қатслік шамасын анықтау әдісін қолданамыз [33,294-301].
Бірақ бұл жсрдс зсрттеушілср тарапынан лингвистикалық таңдаманың критерийлсрі жөнінде нақтылы бір ұйғарымдар болмағанын айта кеткен жон. Сондықтам да сөздіктің көлемі төңірегінде мәселе қөзгалган жағдайда кейдс сөздікті құрастырушының мүмкіндігінс, ксйдс бұрынғы зерттеулердің тәжірибесіне сүйену дағдыға айналды. Лингвостатистикалық зерттеулердс ұсынылып келген "жаңаша" әдістер прагматикалық талаптардан туындайды. Сонымен бірге қайсыбір математикалық аппараттарды қолданудан талаптың қатаңдығы оншалықты бос қоймайды, сондықтан да зсрттеудің өзін-өзі анықтауының айқын дәлелденген критерийі басқа жиілік сөздіктердің жиынымен салыстыру болып саналады [34,19]. Бұған қоса қатынасты қатслік шамасын анықтау әдісінің талабы қатаңдау болғандықтан, зерттеушілер көбінесс өзге әдістерді кдлайды [34-41].
Енді мәтіннің салыстырмалы түрдегі сенімді моделін құру үшін алынған зерттеу нәтижелерін бағалауға мүмкіндік беретін ықтималды статистикалық аппарат - қатынасты қателік шамасын анықтау әдісін қодданып көрейік [25,208]. Алынған нәтижелердің сенімділігі сц аддымен зерттсу қорытындысында алынған абсолютті жәнс қатынасты қателіктергс байланысты анықталады [36,89]. Абсолютті қателік ретіндс Р-р айырмасы саналады, бұл жердегі Р - нсгізғі жиындағы жиілік болса, р - тандамадағы жиілік. Қатынасты қатслік —- арқылы анықталады [26,54-55]. Бұдан шығатын қорытынды, таңдама (М) көлемі неғұрлым аз болса, абсолютті және қатынасты қателік соғұрлым көп болады және керісіншс. Сондықтан да сгер жиілік бслгілі болса, онда жіберілуі мүмкін қателіктерді ескеріп, тандама көлемін анықтауға болады. Қатынасты жиіліктің берілген мөлшерге қатысты ыктималдығынан ауытқу жағдайындағы мүмкіндігін анықтау үшін математикалық статистикаға ендірілген теңсіздікті қолданып көрейік [33,294-301]. N >І N
Мұнда Р, - сөз формасыны пайда болу ықтималдығы; Ғ, - абсолютті жиілік; N - таңдама (жиын) колсмі;
-— = ./, - қатынасты жиілік;
2р - сенімділік коэффициенті. Ксйбір мүмкін болған жағдайларда қатынасты қатслік үшін мына формуланы қолданамыз:
л = — < -=4= немссс гУ =
Осыдан жиілік пен таңдаманың және қатынасты қателіктің арасындагы өзара байланыс формуласын аламыз [16,31-33].
М = -ү- Мұнда N - сөз қолданыстардың келемі; 5 {
5 - бақылаудың қатынасты қателігі; іх - сөз формаларының қатынасты жиілігі.
Сенімділік деңгейінің мондеріне осы зерттеудс сүйенетін мәнділік деңгейлері сәйкес келеді. Бұл болжамдарды тексеру үшін 5% жәні 1% мәнділік деңгейлерін қолданамыз. Мәнділік деңгейі мен сенімділік мына шамалармсн беріледі: 5% немесе 0,05; 95% немесе 0,95. Мәнділік деңгейі алдын-ала белгіленген нәтижелерден кездейсоқ ауытқу ықтималдығын білдіреді.
Соңғы кездері қолданбалы зерттеулерде сенімділік дсңгсйлсрі /?=0,95 немесе 0,99 шамаларымсн алынуда. Тіл білімінде аса үлксн сенімділік деңгейлсрі қажет болмайтындықтан /»=0,95 шамасын қодданады. Бұдан былайгы эксперименттерімізде осы мөлшерді пайдаланбақпыз. Сенімділік деңгейі (р) сенімділік коэффицентімен (2р) байланысты жәнс оган бслгілі бір дәрежеде тәуелді. Соған байланысты /7=0,95 болса, онда 2Р=1,96 [16,36].
Жоғарыда айтылғандарға сүйене отырып, жиілік сөздікке берілген белгілі бір жиіліктегі түрлі сөздер қамтылуы үшін минималды шектегі таңдаманы төмендегідей формуламен алута болады. Мұндағы Гшек - моні сенімді лексикалық бірліктіц төменгі шегінің (Ғшек) мәнінс сәйкес келетін лексикалық бірліктердің катынасты жиілігі, 2р - сенімділіктің берілген мәнінен алынатын тұрақты мән, ішек - ықтималдық бағасын білдірсе, 8 қатынасты катслік. Тәжірибелер көрсеткендей 116.37). 70% қамтылуды сөздіктің 3000-5000 сөз формаларын қамтигын бастапқы аумақтары берсді
(Гшек=0,00004).
Жеткілікті мөлшердегі таңдама көлемін анықтауда одстге мына талаптар қойылады:
ч Байқаудың жіберілуі мүмкін қатынасты қателігі £=0,33 2) Сенімділік /;=0,95; 2,, =1,96
3) Сөзбен қамтылу 70% дсмек, әйтсе дс біздің карастырғанымыз таңдамалы колем емсс, мәтіндерді тұтастай зерттеу болғандықган, 200 000 сөз қолданыс мөлшері жеткілікті келем болып табылады. Бірақ зерттеу мақсатына сәйкес БСО мәтіндерімен езара салыстырылатын әр түрлі тандамаларды ескере отырып, бұлардың барлығын, яғни, БСО мәтіндерін де шартты түрде "таңдама" дсп атауды үйғардық.
Демек, жеткілікті мөлшсрдсгі мәтін көлсмі бақылаудың жіберілуі ықгимал қатынасты және абсолютті қатсліктері, берілген сснімділік. алдын-ала анықгалған мәтіннің сөзбен қамтылуы және онымен байланысты нақгы жиіліктің томенгі шсгі секілді шамаларга байланысты болады [16,33]. Бұл барлық шамалар бір-бірімен өзара тығыз байланысты жәнс тілдің құрылысы мсн мәтіннің лингвистикалық құрылымына тоуслді. Анықталған тандама негізіндс 50 жылдардағы БСО мәтіндеріндегі сөздер мсн сөз формаларыныц жиілік сөздігі (ЖС), алфавитті-жиілік сөздігі (АЖС) жоне ксрі алфавитті-жиілік сөздіктері (КАЖС) алынды (1,2-кестелер).
қазақ мәтіндеріне статистикалық талдау жасау кезінде қиындықтар кездесті. Атап айтқанда, тұрақты тіркестерді ажырату. Күрделі сөздер мен терминдерді жеке қарастыру т.б. Сондықтан да шартты түрдегі критерийлер белгілеу жолымсн бұл қпындықтарды жеңіддетуге тырыстық. Мәтін бірлігі ретіндс "сөз қолданыс" деген атауды қолдандық. Мәтінге статистикалық зерттеу жүргізу кезіндс сыртқы формалары бір-біріне сойксс келетін сөз қолданыстары көптеп кездеседі, бұларды "со:з формасы" деп алдық. Бұл сөз формалары алфавитті-жиілік сөздіктің бірлігі рстінде де қолданылады. Негізгі лексикалық мағыналары өзара жақын сөз формаларыныц
жиыны "сөз" деп аталатын лексикалық бірліктсрді құрайды. Жиілік сөздіктегі әрбір сөз бастапқы негізге немесе түбірге кслтірілді, Мысалы, барды, барып, барған, барма, барамын т.б. сөз формаларының негізі ретіндс бар сөзі алынды. Зерттеу жүргізілген мәтіндерімізде бастапқы негіз немесе түбір ретінде есім сөздер үшін жекеше түрдсгі атау септігі формасы, ал етістіктер үшін П-жак бұйрық рай формасы алынды. Себебі, кейбір сөздіктерде алынып келген тұйық рай формасы сөз топтарын ажыратуда, яғни сөздерді белгілі бір топқа жатқызуда қиындық келтіретін болды. Одағай, еліктеу сөздер мен көмекші сөздер негізінен түбір формада кездесіп отырғандықтан көбіне сол күйіндс қалдырылды.
Зерттсу барысында сөздср мен сөз формаларына арнайы индекстеу жүргіздік немесс орбір сөзді шартты түрдс алынған бір таңбамен бслгілсп отырдық. Бұл сөз таптарының классификациясына негізделді. Қазіргі тіл біліміндс сөздер негізгі үш белгісінс қарай таптастырылуда: лсксикалық магынасы, морфологиялық құрылымы және синтаксистік қызмсті [41,182]. Осы үш белгілсрін салыстыра отырып, әрбір сөзді белгілі топқа қатысты белгілермсн таңбаладық. Бұл жерде сөздерді индекстсу мен оларға морфологиялық талдау жасауда кері алфавитті-
ілік сөздіктерді де пайдаландық [42,17]. Сөздерді бұлайша лексика-грамматикалық топтарға бөлу кезіндс кейбір қиындықгар байқалды. Атап айтканда, омонимдерді ажырату кезінде әрбір сөздің мағынасы тек контекстс қарастырганда ғана анықгалды. Бұл омонимдерді ажыратуға септігі тигенімен, бір сөз табынан ішіндегі омонимдерді ажыратуда сөз топтарына қарасты таңбаларға қосымша цифрлар белгілеуге мәжбүр болдық (8,10-кестелер). Сонымен, сөздердің белгілі бір лексика-грамматикалық топқа қатыстылығы мына төмендегіше белгіленді: з - зат есім, с сын есім, а - сан есім, е - етістік, ү - үстеу, л - еліктеу сөздер, м -есімдік, ш - шылау, о - одағай, д - модаль сөздер (әртарап, бейтарап сөздер), к - көмскші есімдер. Ал снді лексикалық омонимдерді ажыратуда 2- кісі аттары, 4- қысқарған сөздер, 5 - ойын аттары, 6 -газет-журналдар, оқулықтар, коркем шығармалар мсн ғылыми еңбектердің аттары, 7 - географиялық атаулар, 8 - ру, тайпа, ұлт аттары, 9 - жануарлардың аттары деп алынды (3-6-кестелер).
Әдсгте жиілік сөздіктері алынатын мәтіндерді зерттеудің екі түрі белгілі: мәтіндердің барлығын тұтас қарастыру жәнс тандамалы зерттеу. Мәтіндерді тұтасымен зерттеу кезіндс бізді қызықтырған нысанадаҮы лексикалық бірліктің барлық қолданыстары түгел қамтылуы тиіс. Ал таңдама (выборка) арқылы зерттеуде белгілі бір мақсатқа сәйкес әр түрлі көлемдегі тандамалы мәтіндер сараланып. таңдалып шіынады. Мұнда сң аз мөлшердегі минималды таңдама мәтін көлемі шамамен алғанда 1000 сөз қолданыстағы мелшер болып табылады. Зерттеу барысында бұл ею әдістің ішінде мәтівді тұтасымен қарастыру түрін қолданғанымызбен, кейбір эксперименттсрде тандама мәтін арқылы зерттеу әдісін де пайдаланып отырдық. Егер жиілік сөздік таңдама әдісі арқылы алынатын болса, онда алынған статистикалық модсль түпнұсқасының ерекшеліктсрін қаншалықты қамти алатындығы жайлы сұрақ туындайды. Мұндай жағдайда алынған мәтіншн (таңдаманың) өз түпнұсқасына сәйкестілігі болса, онда бұл таңдаманың дұрыс алынғандығын көрсетеді. Алынған жиілік сөздіктің сапасын көрсететін екінші бір жағдай - тізімге (рссстргс) алыиған -өздердің әлі зерттелмеген, жаңа мәтіндерде қаншалықты кездссіп отыратындығы. Зерттеуімізге негіз етіп алынған 50 жылдардағы БСО мөтіндерін У/0-2000 жылдардағы БСО және БӘ мәтіндсрімен салыстыруда осы жағын да ескердік. Алфавитті-жиілік сөздікте белгілі бір зерттеугс алынған мәтін көлеміндсгі сөздердің не олардың тұлғаларының қодданылу жиілігі көрсетілс отырып, алдыңғы әріптсрі бойынша кдтаң әліпби тәртібімен берілсді. Жиілік сөздіктің бул түрі зерттеугс қажет болған лексикалық топтарды оңай ажыратуға, ондагы ксрек сөздерді тез тауып алуға, қаралып отырған мәтіннің стильдік сапасын тандауға, зерттеугс алынған шығарма тілінің лексикалық байлығы мен оны жазған автордыд сөз қолданысындағы тілдік срскшсліктерді сонымен бірге шеберлігн білуғс, дублст сөздердің кай нұсқаларының жиі, ал қай нүскдларының сирек қолданылатындығын білу арқылы олардың орнықтылығын анықтауға, жарыса қолданылатын сөздердің қай нұсқаларының әдеби нормадан шығатындығын анықтауға жәрдемдеседі [16; 17; 76,143]. Жиілік сөздік белгілі бір зерттеугс алынған мәтіндегі сөздердің, не" оның тұлғаларының қолданылу жиілік санына қарай қатаң кемімелі тәртіппен орналасқан тізбесі болып саналады. Егер мұнда сөздер мен оның тұлғаларының қолданылу жиілік саны бірдей болып келсе, онда олар алфавитті-жиілік сөздіктегідей алдыңғы оріптері бойынша қатаң оліпби тәртібімен беріледі. Ал снді ксрі алфавитті-жиілік сөздіктер бслгілі бір зерттеу ыысанасындагы мәтін құрамындағы сөздердің, оның тұлғаларының соңғы әріптері бойынша қатаң әліпби тәртібімен берілетін, мәтіндегі жиілігі қоса көрсетілетін түрі екені белгілі [16; 17; 76,144]. Жиілік сөздіктің бул түрі зерттеушіге сөздің негізғі бөлшектерін ажыратып тануға және ол бөлшектердің қолданылуына талдамалар жасауға мүмкіндік береді.
1-кесте - 1950-2000 ж.ж. БСО мен БӘ мәтіндері бойынша пайдаланылған материалдар
Сөздік аттары
|
Сөз қолда ныс
|
Абсолютті жиілік
|
Сөздік авторы
|
N
|
Ғ с/ф
|
Ғ сөз
|
1. Балалар әдебисті (60-70
|
97260
|
25365
|
10077
|
Молдабск
|
2. 50 ж. БСО мәтіндсрі
_1_сынып
|
24385
|
8374
|
3126
|
Қалыбсков
|
2 сынып
|
44125
|
12885
|
6513
|
|
3 сынып
|
117451
|
25716
|
9344
|
|
Жалпы келемі
|
185961
|
34522
|
10298
|
|
•*• 70 ж. БСО мәтіндері:
|
40710
|
9792
|
3624
|
Молдабск
|
2 сынып
|
93474
|
13869
|
7409
|
|
3 сынып
|
112976
|
27325
|
10397
|
Жалпы көлемі
|
241984
|
38445
|
12281
|
90ж. (1-4 сынып)
|
226374
|
39950
|
12813
|
Мамаев
|
5. Өзбек газет мәтіндері
|
209485
|
35908
|
-
|
Мухамедов
|
6. Өзбек балалар әдебиеті
|
100000
|
26752
|
-
|
Ризаев
|
7. Түрік газеттері
|
100000
|
23273
|
-
|
Бабанаров
|
8. Қаракалпақстан газеті
|
100000
|
-
|
-
|
Айымбетов
|
9. 2000 ж. БСО мәтіндері
|
368965
|
40142
|
13869
|
Ермекбаев
|
Сонымен бірге ол мәтіндердегі сөз тудырушы және сөз түрлендіруші қосымшаларды қиындықсыз тез тауып алуға көмектеседі. Бұларға қоса, кері алфавитті-жиілік сөздіктегі сөз тұлғаларының соңғы әріптеріне қарай бірыңғайласып тәртіппен орналасуы зерітеушіге омонимдес қосымшалардың сыңарларын бір-бірінен ажырата білугс де септігін тигізеді. Ал, олардың мәтіндегі қолданысын керсстетін жиілік көрсеткіштері ол қосымшалардың тұрақгы-тұрақсыздығы, өнімді-өнімсіздігін, нормалану жағдайындағы ерекшелік сипатын анықтауға жәрдсмі тиеді.
2-кестс — 50-70 ж.ж. БСО мәтіндерінің орбір пән бойынша сөзбен қамтылу статистикасы
к/с
|
Оқулықтардың аты
|
Абсолютті жиілік
|
|
70 жылдардағы оқулықтар
|
Ғс/қ
|
Ғс/ф
|
Ғсоі
|
1
|
Балалар әдебиеті
|
100000
|
25365
|
10077
|
2
|
Әліппе, 1975.
|
2536
|
1588
|
992
|
3
|
Қазақ тілі (1 сынып, 1972)
|
8910
|
2867
|
1454
|
4
|
Ана тілі (1 сынып, 1972)
|
11865
|
5081
|
2236
|
5
6
|
Математика (1 сынып, 1972)
|
17399
|
2443
|
1044
|
Қазақ тілі (2 сынып, 1973)
|
13993
|
4649
|
1926
|
7
|
Ана тілі (2 сынып, 1973)
|
4?777
|
13561
|
5632
|
8
|
Математика (9 сынып, 1979)
|
99495
|
3394
|
1221
|
9
10
11
12
13
14
|
Табиғат тану (2 сынып, 1972)
|
14289
|
5265
|
2332
|
Қазақтілі (3 сынып, 1975)
|
20857
|
6076
|
2730
|
Ана тілі (3 сынып, 1975)
|
51462
|
15360
|
7495
|
Математика (3 сынып, 1972)
|
22899
|
3668
|
1297
|
Табиғат тану (3 сынып, 1974)
|
17758
|
6221
|
2775
|
Оқу жылдардағы оқулықтар
|
|
|
|
Әліппе (1 сынып, 1953)
|
6314
|
2480
|
1024
|
Арифметика (1 сынып, 1959)
|
7391
|
2080
|
721
|
16
|
Ана тілі (1 сынып, 1957)
|
10680
|
3814
|
1381
|
17
|
Қазақ тілі (2 сынып, 1952)
|
8035
|
3794
|
1938
|
18
|
Арифметика (2 сынып, 1958)
|
11058
|
2822
|
827
|
19
|
Ана тілі (2 сынып, 1953)
|
25032
|
6269
|
3748
|
20
|
Қазақ тілі (3 сынып, 1951)
|
12524
|
5219
|
2009
|
21
|
Арифметика (3 сынып, 1959)
|
13021
|
3028
|
915
|
22
|
Ана тілі (3 сынып, 1953)
|
47509
|
9131
|
4092
|
23
|
Тарих (3 сынып, 1958)
|
15139
|
4319
|
127^
|
24
|
Табиғат тану (3 сынып, 1952)
|
29258
|
4021
|
2010
|
Достарыңызбен бөлісу: |