Оқулық мәтіндерінің жиілік құрылымының ерекшеліктері 30 Тарау Бастауыш сынып оқушыларының тілдік корын дамыту


Бастауыш сынып оқулықтарының лексикалық жүйесін зерттеуде статистикалық әдісті қолдану



бет2/12
Дата15.06.2016
өлшемі1.45 Mb.
#137800
түріОқулық
1   2   3   4   5   6   7   8   9   ...   12

1.1 Бастауыш сынып оқулықтарының лексикалық жүйесін зерттеуде статистикалық әдісті қолдану

Қазіргі таңдағы ғылым адам мен оны қоршаған ортаны танып-білуде түрлі әдістер мен тәсілдерді қолданып отырғаны белгілі. Біздің сөзім мүшелеріміз бсн қарапайым бақылау құралдары арқылы қабылдауға, тануға болатын нысаналар мен құбылыстарга тікелей бақылау әдістері қолданылады. Тіл білімінде негізінен осы әдістер дыбыстар мен фонемалардың, сөздер мен сөз тіркестерінің құрылымы мен өзгерістерін бақылауда жиі пайдаланылады [29,15]. Бірақ қазіргі зерттеушілер тікелей бақылауга қиындық келтірген нысаналар мсн олардың жиынына жиі кездесуде. Оның басты себептері зерттеуге негіз етіп алынған нысананың қиын да күрделі ішкі құрылымы және адамның миы мен сезім органдарының шектеулі мүмкіндіктері болып саналады. Мысалы, кейбір зерттеу нысаналарының өтс кішкенс немесе шамадан тыс үлкендігінен оларды тікелей бақылау қиындық туғызбай қоймайды. Сол сияқты лингвистикалық құбылыстарда да өте күрделі, біртұтас орі көзге анық байқалмайтын болғандықтан қарапайым түрде бақылауға алу қиын. Біздің зерттеу нысанамыз да (БСО мен БӘ) осындай күрделі әрі көлемді болып саналатындықтан, бұл нысананы тікелей бақылауға алудан бас тартуға мәжбүр боламыз да, қосымша әдіс-тәсілдерді, мысалы, тікелей бақылау мен зерттеуге нысананың езі емес, оның моделі негізғе алынатын модельдеу әдісін қолданамыз. Модель дсп - құрылымы мен қызметі жағынан түпнұсқаны елестететін немесе қайталайтын нысаналар жүйссін айтамыз. Қолданбалы лингвистикада мәтінді талдау жәнс жинақтау алгоритмдерін құруда модельдсу әдісі негізгі әдістің бірі болып табылады [30,16].

Модельдер түпнұсқаның ішкі құрылымын зерттеу және анықтау мақсатында, сонымен бірге оның қалыптасуы мен дамуын түсіндіру үшін қолданылады. Зерттеуімізде квантитативті-лингвистикалық модельдеу әдісін қолданамыз. Модельдің түрін анықтау мен оны құру барысында төмендегі жалпы срежслер қатаң сакталуы тиіс:

Модель - объективті дүнисні аналогия жолымсн бсйнелеудің ерекше түрі болып табылады (модсль - зсрттелетін нысананың көшірмесі емсс, аналогиясы) [16,30].

Модель түпнұсқаға қарағанда күрделі болмауы, ал оны қолдану нысананы зерттеудің басқа әдіс-тәсіддерімен салыстырганда уақыт пен күшті үнемдейтіндей болуы қажет [29,7].

Модель түрлі нысаналарды бейнелеп, түсіндіругс мүмкіндік беретін жан-жақты әрі жалпылама сипатқа ис болуы тиіс.

Модель деп - жасалынған эксперимент үшін ерекше маңызға ие түпнұсқаның өзіндік белгілсрі мен қасиеттерін көрсете және түсіндіре алатын болуы тиіс [29,8].

Зерттеу барысында 1950-2000 жылдардағы БСО мәтіндеріне жасалынған статистикалық мәліметтерге сүйенетін боламыз. Ол үшін зерттеуге негіз стіп алынған нысана мен оның моделі арасындағы сәйкестікті, яғни сәйкестілік коэффициентін анықтап алу керек [16,31]. Мұны лексикалық бірліктсрдің (белгіленген мәтін колеміндс) жиілік сөздік (ЖС), алфавитті-жиілік сөздік (АЖС) және кері алфавитті-жиілік сөздіктерін (КАЖС) алу жолымен орындауға болады [31,10]. Бұл сөздіктер зерттеуге негізге алынған 50 ж. БСО мәтіндері мен онымен салыстырылатын 1970-2000 жылдардағы БСО және БӘ мәтіндерінің квантитативті моделі рстіндс біздің тікелей бақылауымыздан тысқары түпнұсқаның немесе нысананың орнына қарастырылады. Бұл үшін алдымен зерттеуге қажетті мәтін көлемін анықгап алуымыз керек.

Сөздің жиілік тізімін жасауға кірісксн зерттеуші ең аддымен жеткілікті мөлшердегі мәтін колсмін анықтап алуы тиіс. Тандама көлемін анықтау - лингвостатистиканың сң маңызды мәселелерінің бірі. Қажетті, мүмкін болатын бұл мәтін колсмі іске асу мүмкіндіктерін есепке алғандағы статистика теориясының талаптары негізінде анықталады. Тандама мәтініне жүргізілген зсрттсулер нәтижесінде анықталған зандылықтардаи туындайтын қорытындылар тұтас мәтіннің заңдылыкхары жайлы тұжырымдар жасауға мүмкіндік береді [32,54].

Лингвостатистикада сенімділіктің бслгілі бір шамаларында

статистикалық мәндерді бағалауға жоне жиілік сөздіктіц бірліктсрі

үшін қажетті жсткілікті мөлшердегі жиын колсмін анықтауға мүмкіндік беретін мысалдар аз емес [32.55].

Лингвостатистикалық зерттеулерде қажстгі таңдама көлемін анықтау үшін моделі таңдалған мәтіннің статистикалық жағынан -еншді мөлшердегі сөздігін алу қажст болған жагдайда зерттеуге алынған таңдама көлемі жайында алдын-ала мағлұмат алуға, оны ағалауға мүмкіндік беретін қатынасты қатслік шамасын анықтау әдісін қолданамыз [33,294-301].

Бірақ бұл жсрдс зсрттеушілср тарапынан лингвистикалық таңдаманың критерийлсрі жөнінде нақтылы бір ұйғарымдар болмағанын айта кеткен жон. Сондықтам да сөздіктің көлемі төңірегінде мәселе қөзгалган жағдайда кейдс сөздікті құрастырушының мүмкіндігінс, ксйдс бұрынғы зерттеулердің тәжірибесіне сүйену дағдыға айналды. Лингвостатистикалық зерттеулердс ұсынылып келген "жаңаша" әдістер прагматикалық талаптардан туындайды. Сонымен бірге қайсыбір математикалық аппараттарды қолданудан талаптың қатаңдығы оншалықты бос қоймайды, сондықтан да зсрттеудің өзін-өзі анықтауының айқын дәлелденген критерийі басқа жиілік сөздіктердің жиынымен салыстыру болып саналады [34,19]. Бұған қоса қатынасты қатслік шамасын анықтау әдісінің талабы қатаңдау болғандықтан, зерттеушілер көбінесс өзге әдістерді кдлайды [34-41].

Енді мәтіннің салыстырмалы түрдегі сенімді моделін құру үшін алынған зерттеу нәтижелерін бағалауға мүмкіндік беретін ықтималды статистикалық аппарат - қатынасты қателік шамасын анықтау әдісін қодданып көрейік [25,208]. Алынған нәтижелердің сенімділігі сц аддымен зерттсу қорытындысында алынған абсолютті жәнс қатынасты қателіктергс байланысты анықталады [36,89]. Абсолютті қателік ретіндс Р-р айырмасы саналады, бұл жердегі Р - нсгізғі жиындағы жиілік болса, р - тандамадағы жиілік. Қатынасты қатслік —- арқылы анықталады [26,54-55]. Бұдан шығатын қорытынды, таңдама (М) көлемі неғұрлым аз болса, абсолютті және қатынасты қателік соғұрлым көп болады және керісіншс. Сондықтан да сгер жиілік бслгілі болса, онда жіберілуі мүмкін қателіктерді ескеріп, тандама көлемін анықтауға болады. Қатынасты жиіліктің берілген мөлшерге қатысты ыктималдығынан ауытқу жағдайындағы мүмкіндігін анықтау үшін математикалық статистикаға ендірілген теңсіздікті қолданып көрейік [33,294-301]. N >І N

Мұнда Р, - сөз формасыны пайда болу ықтималдығы; Ғ, - абсолютті жиілік; N - таңдама (жиын) колсмі;

-— = ./, - қатынасты жиілік;

2р - сенімділік коэффициенті. Ксйбір мүмкін болған жағдайларда қатынасты қатслік үшін мына формуланы қолданамыз:

л = — < -=4= немссс гУ =

Осыдан жиілік пен таңдаманың және қатынасты қателіктің арасындагы өзара байланыс формуласын аламыз [16,31-33].



М = -ү- Мұнда N - сөз қолданыстардың келемі; 5 {

5 - бақылаудың қатынасты қателігі; іх - сөз формаларының қатынасты жиілігі.

Сенімділік деңгейінің мондеріне осы зерттеудс сүйенетін мәнділік деңгейлері сәйкес келеді. Бұл болжамдарды тексеру үшін 5% жәні 1% мәнділік деңгейлерін қолданамыз. Мәнділік деңгейі мен сенімділік мына шамалармсн беріледі: 5% немесе 0,05; 95% немесе 0,95. Мәнділік деңгейі алдын-ала белгіленген нәтижелерден кездейсоқ ауытқу ықтималдығын білдіреді.

Соңғы кездері қолданбалы зерттеулерде сенімділік дсңгсйлсрі /?=0,95 немесе 0,99 шамаларымсн алынуда. Тіл білімінде аса үлксн сенімділік деңгейлсрі қажет болмайтындықтан /»=0,95 шамасын қодданады. Бұдан былайгы эксперименттерімізде осы мөлшерді пайдаланбақпыз. Сенімділік деңгейі (р) сенімділік коэффицентімен (2р) байланысты жәнс оган бслгілі бір дәрежеде тәуелді. Соған байланысты /7=0,95 болса, онда 2Р=1,96 [16,36].

Жоғарыда айтылғандарға сүйене отырып, жиілік сөздікке берілген белгілі бір жиіліктегі түрлі сөздер қамтылуы үшін минималды шектегі таңдаманы төмендегідей формуламен алута болады. Мұндағы Гшек - моні сенімді лексикалық бірліктіц төменгі шегінің (Ғшек) мәнінс сәйкес келетін лексикалық бірліктердің катынасты жиілігі, - сенімділіктің берілген мәнінен алынатын тұрақты мән, ішек - ықтималдық бағасын білдірсе, 8 қатынасты катслік. Тәжірибелер көрсеткендей 116.37). 70% қамтылуды сөздіктің 3000-5000 сөз формаларын қамтигын бастапқы аумақтары берсді

(Гшек=0,00004).

Жеткілікті мөлшердегі таңдама көлемін анықтауда одстге мына талаптар қойылады:

ч Байқаудың жіберілуі мүмкін қатынасты қателігі £=0,33 2) Сенімділік /;=0,95; 2,, =1,96

3) Сөзбен қамтылу 70% дсмек, әйтсе дс біздің карастырғанымыз таңдамалы колем емсс, мәтіндерді тұтастай зерттеу болғандықган, 200 000 сөз қолданыс мөлшері жеткілікті келем болып табылады. Бірақ зерттеу мақсатына сәйкес БСО мәтіндерімен езара салыстырылатын әр түрлі тандамаларды ескере отырып, бұлардың барлығын, яғни, БСО мәтіндерін де шартты түрде "таңдама" дсп атауды үйғардық.

Демек, жеткілікті мөлшсрдсгі мәтін көлсмі бақылаудың жіберілуі ықгимал қатынасты және абсолютті қатсліктері, берілген сснімділік. алдын-ала анықгалған мәтіннің сөзбен қамтылуы және онымен байланысты нақгы жиіліктің томенгі шсгі секілді шамаларга байланысты болады [16,33]. Бұл барлық шамалар бір-бірімен өзара тығыз байланысты жәнс тілдің құрылысы мсн мәтіннің лингвистикалық құрылымына тоуслді. Анықталған тандама негізіндс 50 жылдардағы БСО мәтіндеріндегі сөздер мсн сөз формаларыныц жиілік сөздігі (ЖС), алфавитті-жиілік сөздігі (АЖС) жоне ксрі алфавитті-жиілік сөздіктері (КАЖС) алынды (1,2-кестелер).

қазақ мәтіндеріне статистикалық талдау жасау кезінде қиындықтар кездесті. Атап айтқанда, тұрақты тіркестерді ажырату. Күрделі сөздер мен терминдерді жеке қарастыру т.б. Сондықтан да шартты түрдегі критерийлер белгілеу жолымсн бұл қпындықтарды жеңіддетуге тырыстық. Мәтін бірлігі ретіндс "сөз қолданыс" деген атауды қолдандық. Мәтінге статистикалық зерттеу жүргізу кезіндс сыртқы формалары бір-біріне сойксс келетін сөз қолданыстары көптеп кездеседі, бұларды "со:з формасы" деп алдық. Бұл сөз формалары алфавитті-жиілік сөздіктің бірлігі рстінде де қолданылады. Негізгі лексикалық мағыналары өзара жақын сөз формаларыныц

жиыны "сөз" деп аталатын лексикалық бірліктсрді құрайды. Жиілік сөздіктегі әрбір сөз бастапқы негізге немесе түбірге кслтірілді, Мысалы, барды, барып, барған, барма, барамын т.б. сөз формаларының негізі ретіндс бар сөзі алынды. Зерттеу жүргізілген мәтіндерімізде бастапқы негіз немесе түбір ретінде есім сөздер үшін жекеше түрдсгі атау септігі формасы, ал етістіктер үшін П-жак бұйрық рай формасы алынды. Себебі, кейбір сөздіктерде алынып келген тұйық рай формасы сөз топтарын ажыратуда, яғни сөздерді белгілі бір топқа жатқызуда қиындық келтіретін болды. Одағай, еліктеу сөздер мен көмекші сөздер негізінен түбір формада кездесіп отырғандықтан көбіне сол күйіндс қалдырылды.

Зерттсу барысында сөздср мен сөз формаларына арнайы индекстеу жүргіздік немесс орбір сөзді шартты түрдс алынған бір таңбамен бслгілсп отырдық. Бұл сөз таптарының классификациясына негізделді. Қазіргі тіл біліміндс сөздер негізгі үш белгісінс қарай таптастырылуда: лсксикалық магынасы, морфологиялық құрылымы және синтаксистік қызмсті [41,182]. Осы үш белгілсрін салыстыра отырып, әрбір сөзді белгілі топқа қатысты белгілермсн таңбаладық. Бұл жерде сөздерді индекстсу мен оларға морфологиялық талдау жасауда кері алфавитті-

ілік сөздіктерді де пайдаландық [42,17]. Сөздерді бұлайша лексика-грамматикалық топтарға бөлу кезіндс кейбір қиындықгар байқалды. Атап айтканда, омонимдерді ажырату кезінде әрбір сөздің мағынасы тек контекстс қарастырганда ғана анықгалды. Бұл омонимдерді ажыратуға септігі тигенімен, бір сөз табынан ішіндегі омонимдерді ажыратуда сөз топтарына қарасты таңбаларға қосымша цифрлар белгілеуге мәжбүр болдық (8,10-кестелер). Сонымен, сөздердің белгілі бір лексика-грамматикалық топқа қатыстылығы мына төмендегіше белгіленді: з - зат есім, с сын есім, а - сан есім, е - етістік, ү - үстеу, л - еліктеу сөздер, м -есімдік, ш - шылау, о - одағай, д - модаль сөздер (әртарап, бейтарап сөздер), к - көмскші есімдер. Ал снді лексикалық омонимдерді ажыратуда 2- кісі аттары, 4- қысқарған сөздер, 5 - ойын аттары, 6 -газет-журналдар, оқулықтар, коркем шығармалар мсн ғылыми еңбектердің аттары, 7 - географиялық атаулар, 8 - ру, тайпа, ұлт аттары, 9 - жануарлардың аттары деп алынды (3-6-кестелер).

Әдсгте жиілік сөздіктері алынатын мәтіндерді зерттеудің екі түрі белгілі: мәтіндердің барлығын тұтас қарастыру жәнс тандамалы зерттеу. Мәтіндерді тұтасымен зерттеу кезіндс бізді қызықтырған нысанадаҮы лексикалық бірліктің барлық қолданыстары түгел қамтылуы тиіс. Ал таңдама (выборка) арқылы зерттеуде белгілі бір мақсатқа сәйкес әр түрлі көлемдегі тандамалы мәтіндер сараланып. таңдалып шіынады. Мұнда сң аз мөлшердегі минималды таңдама мәтін көлемі шамамен алғанда 1000 сөз қолданыстағы мелшер болып табылады. Зерттеу барысында бұл ею әдістің ішінде мәтівді тұтасымен қарастыру түрін қолданғанымызбен, кейбір эксперименттсрде тандама мәтін арқылы зерттеу әдісін де пайдаланып отырдық. Егер жиілік сөздік таңдама әдісі арқылы алынатын болса, онда алынған статистикалық модсль түпнұсқасының ерекшеліктсрін қаншалықты қамти алатындығы жайлы сұрақ туындайды. Мұндай жағдайда алынған мәтіншн (таңдаманың) өз түпнұсқасына сәйкестілігі болса, онда бұл таңдаманың дұрыс алынғандығын көрсетеді. Алынған жиілік сөздіктің сапасын көрсететін екінші бір жағдай - тізімге (рссстргс) алыиған -өздердің әлі зерттелмеген, жаңа мәтіндерде қаншалықты кездссіп отыратындығы. Зерттеуімізге негіз етіп алынған 50 жылдардағы БСО мөтіндерін У/0-2000 жылдардағы БСО және БӘ мәтіндсрімен салыстыруда осы жағын да ескердік. Алфавитті-жиілік сөздікте белгілі бір зерттеугс алынған мәтін көлеміндсгі сөздердің не олардың тұлғаларының қодданылу жиілігі көрсетілс отырып, алдыңғы әріптсрі бойынша кдтаң әліпби тәртібімен берілсді. Жиілік сөздіктің бул түрі зерттеугс қажет болған лексикалық топтарды оңай ажыратуға, ондагы ксрек сөздерді тез тауып алуға, қаралып отырған мәтіннің стильдік сапасын тандауға, зерттеугс алынған шығарма тілінің лексикалық байлығы мен оны жазған автордыд сөз қолданысындағы тілдік срскшсліктерді сонымен бірге шеберлігн білуғс, дублст сөздердің кай нұсқаларының жиі, ал қай нүскдларының сирек қолданылатындығын білу арқылы олардың орнықтылығын анықтауға, жарыса қолданылатын сөздердің қай нұсқаларының әдеби нормадан шығатындығын анықтауға жәрдемдеседі [16; 17; 76,143]. Жиілік сөздік белгілі бір зерттеугс алынған мәтіндегі сөздердің, не" оның тұлғаларының қолданылу жиілік санына қарай қатаң кемімелі тәртіппен орналасқан тізбесі болып саналады. Егер мұнда сөздер мен оның тұлғаларының қолданылу жиілік саны бірдей болып келсе, онда олар алфавитті-жиілік сөздіктегідей алдыңғы оріптері бойынша қатаң оліпби тәртібімен беріледі. Ал снді ксрі алфавитті-жиілік сөздіктер бслгілі бір зерттеу ыысанасындагы мәтін құрамындағы сөздердің, оның тұлғаларының соңғы әріптері бойынша қатаң әліпби тәртібімен берілетін, мәтіндегі жиілігі қоса көрсетілетін түрі екені белгілі [16; 17; 76,144]. Жиілік сөздіктің бул түрі зерттеушіге сөздің негізғі бөлшектерін ажыратып тануға және ол бөлшектердің қолданылуына талдамалар жасауға мүмкіндік береді.

1-кесте - 1950-2000 ж.ж. БСО мен БӘ мәтіндері бойынша пайдаланылған материалдар


Сөздік аттары

Сөз қолда ныс

Абсолютті жиілік

Сөздік авторы

N

Ғ с/ф

Ғ сөз

1. Балалар әдебисті (60-70

97260

25365

10077

Молдабск

2. 50 ж. БСО мәтіндсрі

_1_сынып


24385

8374

3126

Қалыбсков

2 сынып

44125

12885

6513




3 сынып

117451

25716

9344




Жалпы келемі

185961

34522

10298




•*• 70 ж. БСО мәтіндері:

40710

9792

3624

Молдабск




2 сынып

93474

13869

7409




3 сынып

112976

27325

10397

Жалпы көлемі

241984

38445

12281

90ж. (1-4 сынып)

226374

39950

12813

Мамаев

5. Өзбек газет мәтіндері

209485

35908

-

Мухамедов

6. Өзбек балалар әдебиеті

100000

26752

-

Ризаев

7. Түрік газеттері

100000

23273

-

Бабанаров

8. Қаракалпақстан газеті

100000

-

-

Айымбетов

9. 2000 ж. БСО мәтіндері

368965

40142

13869

Ермекбаев

Сонымен бірге ол мәтіндердегі сөз тудырушы және сөз түрлендіруші қосымшаларды қиындықсыз тез тауып алуға көмектеседі. Бұларға қоса, кері алфавитті-жиілік сөздіктегі сөз тұлғаларының соңғы әріптеріне қарай бірыңғайласып тәртіппен орналасуы зерітеушіге омонимдес қосымшалардың сыңарларын бір-бірінен ажырата білугс де септігін тигізеді. Ал, олардың мәтіндегі қолданысын керсстетін жиілік көрсеткіштері ол қосымшалардың тұрақгы-тұрақсыздығы, өнімді-өнімсіздігін, нормалану жағдайындағы ерекшелік сипатын анықтауға жәрдсмі тиеді.



2-кестс — 50-70 ж.ж. БСО мәтіндерінің орбір пән бойынша сөзбен қамтылу статистикасы



к/с

Оқулықтардың аты

Абсолютті жиілік




70 жылдардағы оқулықтар

Ғс/қ

Ғс/ф

Ғсоі

1

Балалар әдебиеті

100000

25365

10077

2

Әліппе, 1975.

2536

1588

992

3

Қазақ тілі (1 сынып, 1972)

8910

2867

1454

4

Ана тілі (1 сынып, 1972)

11865

5081

2236

5
6

Математика (1 сынып, 1972)

17399

2443

1044

Қазақ тілі (2 сынып, 1973)

13993

4649

1926

7

Ана тілі (2 сынып, 1973)

4?777

13561

5632

8

Математика (9 сынып, 1979)

99495

3394

1221

9

10

11



12

13

14



Табиғат тану (2 сынып, 1972)

14289

5265

2332

Қазақтілі (3 сынып, 1975)

20857

6076

2730

Ана тілі (3 сынып, 1975)

51462

15360

7495

Математика (3 сынып, 1972)

22899

3668

1297

Табиғат тану (3 сынып, 1974)

17758

6221

2775

Оқу жылдардағы оқулықтар










Әліппе (1 сынып, 1953)

6314

2480

1024

Арифметика (1 сынып, 1959)

7391

2080

721

16

Ана тілі (1 сынып, 1957)

10680

3814

1381

17

Қазақ тілі (2 сынып, 1952)

8035

3794

1938

18

Арифметика (2 сынып, 1958)

11058

2822

827

19

Ана тілі (2 сынып, 1953)

25032

6269

3748

20

Қазақ тілі (3 сынып, 1951)

12524

5219

2009

21

Арифметика (3 сынып, 1959)

13021

3028

915

22

Ана тілі (3 сынып, 1953)

47509

9131

4092

23

Тарих (3 сынып, 1958)

15139

4319

127^

24

Табиғат тану (3 сынып, 1952)

29258

4021

2010


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   12




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет