34
Бүл орайда біз қарастырган БСО мәтіндеріндсгі статистикалық түргыдан реттестіруді кджет стетін сөз қодданыстардың болуы заңды.
Өйткені оқулық қүрастыру барысында лингвостатистикалық нәтижелер кобіне ссксріле бермейтінін мойындау парыз. Енді қарастырылған мотіндердің орташа сөз қодданыстарының кестссін қарайық (10-кесте). Әр жылдар (1950-2000 ж.ж.) окулықтары мәтіндеріндегі сөздердің қайталануын былайша түсіндіругс болады: бүл мәтіндер ғылым мен техника жетістіктерін үзбей хабарлап отыратын газет мәтіндеріне (өзбек газеттері ғ =16,12) қарағанда жанрлық жағынан шектеулі, лексикасы жүтаңдау болып келеді. Дегенмен дс бүл салыстырулар квантитативтік-типологиялық критерийлер ретінде тек бір гана жағдайда, яғни салыстырылып отырған тілдер үшін бүл шамалар өзара бірдей көлемдегі, жанрлық-стилистикалық түрлері бойынша үқсас таңдамалар жагдайында гана орындалуы мүмкін (16, 49].
11-кесте - Мәтіндердегі соз формаларының орташа қолданысы (Түркі тілдері бойынша мәліметтер Қ.Молдабек еңбектерінен алынды)
Жиілік создіктер
|
Абсолютті
жиілік
•к
|
Сөз формасы
|
Пайызы
%
|
1. Б
|
97260
|
25365
|
3,83
|
2. 50 ж. БСО мотіндері
|
185961
|
34522
|
5,38
|
3. 1 сынып
|
24385
|
8374
|
2,91
|
4. 2 сынып
|
44125
|
12885
|
3,42
|
5. 3 сынып
|
117451
|
25716
|
4,56
|
6. 70 ж. БСО мәтіндері
|
241984
|
39445
|
6,29
|
7. 1 сынып
|
35561
|
8792
|
3,63
|
8. 2 сынып
|
93474
|
13869
|
6,74
|
9. 3 сынып
|
112976
|
27325
|
4,13 ^_ ,
|
10. 90 ж. БСО мәтіндері
|
226374
|
39950
|
5,66
|
11. 2000 ж. БСО мәтін.
|
368965
|
40142
|
7,19
|
12. Өзбек газеттсрі
|
209485
|
35908
|
5,83
|
13. Өзбек балалар әдебиеті
|
100134
|
26752
|
3,74
|
14. Түрік газеттсрі
|
100000
|
23273
|
4,30
|
15. Қарақалпақ публицисти касы
|
102573
|
25784
|
3,98
|
35
16. Орыс тілі (Садчикова, 1975)
|
107835
|
15247
|
6,81
|
17. Абай (шыгарм.)
|
46819
|
14586
|
3,21
|
18. Неміс тіліндегі мәтіндер (Окулич, 1972)
|
100000
|
13781
|
7,26
|
19. Неміс тіліндегі мәтіндер(Ротарь, 1970)
|
200000
|
28422
|
7,07
|
Сондықган да Пушкин тілін (544777 с.қ., ғ =25,70) БСО мәтіндерінің тіліне қарағанда ксдсй дсп ойлауга болмайды, әрі ор түрлі типологиялық топқа жататын тілдер арасындағы айырмашылықгар шамалы болады. Сөз формаларының {Ғс-ф) шамасын салыстыруда басқаша көрініске тап боламыз (11-кесте).
Егер агглютинативті қазақ тілінде 200000 сөз қолданысқа тең болатын тандаманың әрбір сөз формасына шаққаңдағы орташа қайталану жиілігі ғ=5,38 (50 ж. БСО) және ғ=6,29 (70 ж. БСО) сез қолданысқа тең болса, таңдама колемі 100000 сөз қолданысқа тең Б| әрбір сөз формасына шаққандагы сөздердің орташа қайталануы ғ=3,83.
Флективті-синтетикалық орыс тілінде 100000 сөз қолданысқа тсң тандаманың әрбір сөз формасына шаққандағы орташа қайталану жиілігі ғ =6,81 сөз қолданысқа тең мелшерде болса, флективті-аналитикалық неміс тілінде таңдама көлемі 100000 жәнс 200000 сөз қолданысқа тең болған жағдайда мәтіндегі әрбір сөз формасы тиісінше 7,26 және 7,07 реттен қайталанады. Бүдан байқайтынымыз -мәтіннің синтеттілігі артқан сайын, сөз формаларының орташа қайталануы азая бастайды. Демск. әр түрлі қүрылымдағы тілдер үшін мәтіндегі сөздердің статистикалық мүмкіндіктері жалпы алғанда бірдей деп есептейміз.
10-11-кестелерде келтірілген нәтижелерден шығатын қорытынды: әр түрлі сөз формаларын тудыруға икемді және бай агглютинативті (қазақ, түрік, қаракалпак) тілдерде сөз формаларының ғ шамасы флективті тілдсргс қарағанда аз болыгі келеді, аітлютинативті күрылымдағы бір тілдің ішіндегі сөз формаларының орташа қайталануындагы айырмашылықтар (50 және 70-2000 жылдар оқулықтары) таңдама көлеміне (185961—368965 с.қ) жәнс синтеттіліктің артуына байланысты болады (/-' = 18,56 жонс 26,60). Қазақ, өзбек, түрік және карақалпақ тілдеріндегі мәтіндердің сөз формаларына қатысты синтеттілік коэффициенті таңдама көлемдері бірдей болған жағдайда барлық тілдер үшін өзара дснғейлсс (24-26%) шамада болады [17,33]. Қорыта келгенде, 6-ксстедегі нәтижелер көрсстксндей, типологиялық сипаттағы бүл айырмашылықтар тілдің
36
морфологиялық қүрылымына байланысты:
Нсгүрлым тілде аналитикалық қүрылым элсмснттсрі көбейгсн сайын, согүрлым создсрдің орташа кайталануы осе түссді [16,50].
Егер БСО мәтіидерінің жиілік сөздігін бірнешс аумақгарға: бірінші аумаққа алғашқы 100-ге дейінгі, скінші аумаққа 500-ге дейінгі, үшінші аумақкд 1000-га дейінгі, төртінші аумаққа 2000-га дейінгі, бесінші аумақка алгашқы 3000-га дсйінгі жиі кездссетін лексикалық бірліктерді бөлсек, онда әр жылдардагы окулық мәтіндері мен өзбск және флективті орыс тілдері жиілік сөздіктерінің әрбір аумаққа қатысты сөзбен қамтылу ерекшіліктерін талдау барысында мынадай нәтижелерді аламыз:
1. Агглютинативті тілдсрдің (50-70 жылдардагы оқулықтар, өзбек мәтіндері және БӘ) 100-ге дейінгі аумақтағы жиі кездесетін сөздермен қамтылуы мотіннің 39%-41%-ын қүраса, флективті (орыс) тілдерде ол 29%.
12-кесте - 1950-2000 жылдардагы БСО мен БӘ жиі қолданыстагы сөздсрмен қамтылуы
Жиілік создіктср
|
N
|
І_
|
1-100
|
1-500
|
1-1000
|
1-2000
|
1-3000
1
|
1. Балалар әдебиеті
|
97260
|
11068
|
25,11
|
47,54
|
59,41
|
72.04
|
80.00
|
2. 50 ж. БСО
|
185961
|
10298
|
38,55
|
66,17
|
77,57
|
87,07
|
91,38
|
3. 70 ж. БСО
|
241984
|
12281
|
41,87
|
70,53
|
83.29
|
88,76
|
90,08
|
4. 90 ж. БСО
|
226374
|
12813
|
39,41
|
68,13
|
79,51
|
84,17
|
і
91.12
|
5. 2000 ж. БСО
|
386965
|
13869
|
38,62
|
70,84
|
81,63
|
82,61
|
93.33
|
6. Абай жолы (1-4 т.)
|
465591
|
17188
|
39,20
|
68,02
|
71,55
|
79,92
|
84.00 і
|
7. Газеттер(публи-цистикалық)
|
146764
|
12423
|
31,40
|
59,74
|
72.85
|
83,88
|
88,88
|
8. Өзбск көркем 95550 әдебиеті
|
8052
|
44,81
|
68,18
|
77,83
|
-
|
-
|
9. Өзбск тіліндсгі газеттер
|
209485
|
12996
|
35,19
|
62,98
|
75,14
|
85,47
|
1
|
10. Орыс одсбисті (Пушкин)
|
544777
|
21197
|
-
|
-
|
70,00
|
-
|
|
|
11. Орысша создік (Засорина, 1966
|
1 120843
|
14206
|
28,89
|
47,61
|
58,00
|
69,01 |
|
76,50 і
|
Егер 1000-га дейінгі аумақта БӘ жиі кездесетін лексикалық бірліктер мәтіннің 59% үлесін қамтыса, 50 жылдардагы оқулықтарда 78%, 70 жылдардағы окулыктарда 83%, 90 жылдардағы окулықтарында 79%, 2000 жылдардагы окулықтарда 82%, озбек
37
тіліндс 68% үлесті қамтыса, ал флективті орыс тілінде бүл аумақтагы лексикалық бірліктер мотіннің 58%-ын қүрап, агглютинативті тілдердің көрсеткіштеріне шамалас дсңгсйдсн корінсді (12-кссте).
Бүл жердс мәтіннің сөзбсн кдмтылуындагы айырмашылық тілдердің типтік белгілсрінс қарай смес, стилі мен тақырыптық айырмашылыктарына байланысты. Мысалы, 50 ж. және 70 ж. мектеп оқулықтарына қараганда сөздік қоры бай БӘ бүл аумақтағы лексикалық бірліктермен қамтылуы өте төмен (59,41%). Бүган керісінше, онымен салыстырғанда сөздік қоры жүгаңцау болып келетін 1950-2000 ж.ж. БСО мәтіндері жиі кездесетін сөздермен қамтылудың өте жоғары дәрежесін керсетеді (78%-83%).
2. Барлық тілдср бойынша алынған мәтіндердің жиілік сөздіктері түрлі аумақтар бойынша сөзбен кдмтылудың шамамен алганда бірдей дәрежедегі осу кдрқынын байқатты (Қосымша А).
Қазіргі таңцағы статистикалық аппараттың тәжірибесі мәтіннің статистикалық қүрылымы жайында алынган нәтижелерді дәлелді түрде бағалауға мүмкіндік беретін көптеген әдістерге бай екені бслгілі [32,68].
Әдетте мәтіннің статистикалық қүрылымы ретінде мәтіндегі сөздер саны мен олардың мәтінде көрінетін жиілігі арасындагы қарым-қатынасты айтатыны белгілі. Мәтіннің статистикалық қүрылымының моделі ретінде сөздік тізіміндегі сөздің рангісі мен оның жиілігі арасында кері тоуелділік қалыптасатын жиілік сездіктерді санауымызга болады. Аталган тәуелділікті дәлелдеу бағытындағы зерттеудің бастыларының бірі - Эсту-Ципф-Мандсльброт заңы. Бүл заңның нсгізін қалаушы француз галымы Эсту 1916 жылы стенографияны жетіддірумен айналысу барысында ранг-жиілік тәуелділігін байқады. Ксйінірек бүл заң Ципф, Мандсльброт тағы басқа галымдармсн дәлелденіп, толықтырылып "Эсту-Ципф-Мандельброт заңы" деген атқа ие болды.
Рангіден заң парамстрінің функциональды тәуелділігін анықтау міндеті В.Калинин мен Э.Макаев еңбектерінде шешімін тапты (46; 47]. Бүл заң сөздің жиілігі мен жиілік тізіміндегі оның рангісі арасында кему жиілігі бойынша байланысты қалыптастырады жонс берілген рангі бойынша мәтіннен кездейсоқ алынған сөздің пайда болу ыктималдығын шамалап есептеуге мүмкіндік береді, ягни, сез бен оның берілген реітік нөмірі арасыіідағы пропорцияны аныкхауға жағдай жасайды. Заңның параметрлерін ссептеу Ғ,=КтК(і+р)"'' формуласымен өрнектеледі, мүндагы Ғ, - тізімдегі создін (соз формасының) абсолюіті жиілігі, і - тізімдегі сөздердің (с/ф) реггік нөмірі, N - сөз қолданыстармен алгандагы таңдама көлемі; к, р, ү -заңның параметрлері.
К, р, ү - шамаларының түрақты мондерін анықтау арқылы зерттеуімізде БСО мен БӘ сөздсрдің қолданылу жиілігін оның рангісі
38
бойынша және ксрі тәуслділік бойынша анықтап, окулық мәтіндері мен БӘ статистикалық қүрылымының ерекшеліктсрін айқындадық (13-19-ксстслер). Ципф заңының парамстрін (К) мына формулалармен аныктауга болады
к = -
|
ІТІІП 1
|
|
|
|
|
N
|
|
тізбектеі
|
"І
|
сөздің
|
абсолютті
|
жи
|
ілігі,
|
Достарыңызбен бөлісу: |