Сондықган да Пушкин тілін (544777 с.қ., ғ =25,70) БСО мәтіндерінің тіліне қарағанда ксдсй дсп ойлауга болмайды, әрі ор түрлі типологиялық топқа жататын тілдер арасындағы айырмашылықгар шамалы болады. Сөз формаларының {Ғс-ф) шамасын салыстыруда басқаша көрініске тап боламыз (11-кесте).
Егер агглютинативті қазақ тілінде 200000 сөз қолданысқа тең болатын тандаманың әрбір сөз формасына шаққаңдағы орташа қайталану жиілігі ғ=5,38 (50 ж. БСО) және ғ=6,29 (70 ж. БСО) сөз қолданысқа тең болса, таңдама колемі 100000 сөз қолданысқа тең Б| әрбір сөз формасына шаққандагы сөздердің орташа қайталануы ғ=3,83.
Флективті-синтетикалық орыс тілінде 100000 сөз қолданысқа тсң тандаманың әрбір сөз формасына шаққандағы орташа қайталану жиілігі ғ =6,81 сөз қолданысқа тең мелшерде болса, флективті-аналитикалық неміс тілінде таңдама көлемі 100000 жәнс 200000 сөз қолданысқа тең болған жағдайда мәтіндегі әрбір сөз формасы тиісінше 7,26 және 7,07 реттен қайталанады. Бұдан байқайтынымыз -мәтіннің синтеттілігі артқан сайын, сөз формаларының орташа қайталануы азая бастайды. Демск. әр түрлі құрылымдағы тілдер үшін мәтіндегі сөздердің статистикалық мүмкіндіктері жалпы алғанда бірдей деп есептейміз.
10-11-кестелерде келтірілген нәтижелерден шығатын қорытынды: әр түрлі сөз формаларын тудыруға икемді және бай агглютинативті (қазақ, түрік, қаракалпак) тілдерде сөз формаларының ғ шамасы флективті тілдсргс қарағанда аз болыгі келеді, аітлютинативті құрылымдағы бір тілдің ішіндегі сөз формаларының орташа қайталануындагы айырмашылықтар (50 және 70-2000 жылдар оқулықтары) таңдама көлеміне (185961—368965 с.қ) жәнс синтеттіліктің артуына байланысты болады (/-' = 18,56 және 26,60). Қазақ, өзбек, түрік және карақалпақ тілдеріндегі мәтіндердің сөз формаларына қатысты синтеттілік коэффициенті таңдама көлемдері бірдей болған жағдайда барлық тілдер үшін өзара дснғейлсс (24-26%) шамада болады [17,33]. Қорыта келгенде, 6-ксстедегі нәтижелер көрсстксндей, типологиялық сипаттағы бұл айырмашылықтар тілдің
морфологиялық құрылымына байланысты:
Неғұрлым тілде аналитикалық құрылым элсмснттсрі көбейгсн сайын, согүрлым сөздсрдің орташа кайталануы осе түссді [16,50].
Егер БСО мәтіидерінің жиілік сөздігін бірнешс аумақгарға: бірінші аумаққа алғашқы 100-ге дейінгі, скінші аумаққа 500-ге дейінгі, үшінші аумақкд 1000-га дейінгі, төртінші аумаққа 2000-га дейінгі, бесінші аумақка алғашқы 3000-га дсйінгі жиі кездссетін лексикалық бірліктерді бөлсек, онда әр жылдардағы оқулық мәтіндері мен өзбск және флективті орыс тілдері жиілік сөздіктерінің әрбір аумаққа қатысты сөзбен қамтылу ерекшіліктерін талдау барысында мынадай нәтижелерді аламыз:
1. Агглютинативті тілдсрдің (50-70 жылдардағы оқулықтар, өзбек мәтіндері және БӘ) 100-ге дейінгі аумақтағы жиі кездесетін сөздермен қамтылуы мәтіннің 39%-41%-ын қүраса, флективті (орыс) тілдерде ол 29%.
12-кесте - 1950-2000 жылдардағы БСО мен БӘ жиі қолданыстағы сөздсрмен қамтылуы
Жиілік сөздіктср
|
N
|
І_
|
1-100
|
1-500
|
1-1000
|
1-2000
|
1-3000
1
|
1. Балалар әдебиеті
|
97260
|
11068
|
25,11
|
47,54
|
59,41
|
72.04
|
80.00
|
2. 50 ж. БСО
|
185961
|
10298
|
38,55
|
66,17
|
77,57
|
87,07
|
91,38
|
3. 70 ж. БСО
|
241984
|
12281
|
41,87
|
70,53
|
83.29
|
88,76
|
90,08
|
4. 90 ж. БСО
|
226374
|
12813
|
39,41
|
68,13
|
79,51
|
84,17
|
і
91.12
|
5. 2000 ж. БСО
|
386965
|
13869
|
38,62
|
70,84
|
81,63
|
82,61
|
93.33
|
6. Абай жолы (1-4 т.)
|
465591
|
17188
|
39,20
|
68,02
|
71,55
|
79,92
|
84.00 і
|
7. Газеттер(публи-цистикалық)
|
146764
|
12423
|
31,40
|
59,74
|
72.85
|
83,88
|
88,88
|
8. Өзбск көркем 95550 әдебиеті
|
8052
|
44,81
|
68,18
|
77,83
|
-
|
-
|
9. Өзбск тіліндсгі газеттер
|
209485
|
12996
|
35,19
|
62,98
|
75,14
|
85,47
|
1
|
10. Орыс одсбисті (Пушкин)
|
544777
|
21197
|
-
|
-
|
70,00
|
-
|
|
11. Орысша сөздік (Засорина, 1966
|
1 120843
|
14206
|
28,89
|
47,61
|
58,00
|
69,01
|
76,50
|
егер 1000-га дейінгі аумақта БӘ жиі кездесетін лексикалық бірліктер мәтіннің 59% үлесін қамтыса, 50 жылдардағы оқулықтарда 78%, 70 жылдардағы оқулықтарда 83%, 90 жылдардағы оқулықтарында 79%, 2000 жылдардағы оқулықтарда 82%, өзбек тіліндс 68% үлесті қамтыса, ал флективті орыс тілінде бұл аумақтагы лексикалық бірліктер мәтіннің 58%-ын қүрап, агглютинативті тілдердің көрсеткіштеріне шамалас дсңгсйдсн корінсді (12-кссте).
Бұл жердс мәтіннің сөзбсн кдмтылуындагы айырмашылық тілдердің типтік белгілсрінс қарай смес, стилі мен тақырыптық айырмашылыктарына байланысты. Мысалы, 50 ж. және 70 ж. мектеп оқулықтарына қараганда сөздік қоры бай БӘ бұл аумақтағы лексикалық бірліктермен қамтылуы өте төмен (59,41%). Бүган керісінше, онымен салыстырғанда сөздік қоры жүгаңцау болып келетін 1950-2000 ж.ж. БСО мәтіндері жиі кездесетін сөздермен қамтылудың өте жоғары дәрежесін керсетеді (78%-83%).
Барлық тілдср бойынша алынған мәтіндердің жиілік сөздіктері түрлі аумақтар бойынша сөзбен кдмтылудың шамамен алғанда бірдей дәрежедегі өсу қарқынын байқатты (Қосымша А). Қазіргі таңдағы статистикалық аппараттың тәжірибесі мәтіннің статистикалық құрылымы жайында алынған нәтижелерді дәлелді түрде бағалауға мүмкіндік беретін көптеген әдістерге бай екені бслгілі [32,68].
Әдетте мәтіннің статистикалық құрылымы ретінде мәтіндегі сөздер саны мен олардың мәтінде көрінетін жиілігі арасындагы қарым-қатынасты айтатыны белгілі. Мәтіннің статистикалық құрылымының моделі ретінде сөздік тізіміндегі сөздің рангісі мен оның жиілігі арасында кері тоуелділік қалыптасатын жиілік сөздіктерді санауымызга болады. Аталган тәуелділікті дәлелдеу бағытындағы зерттеудің бастыларының бірі - Эсту-Ципф-Мандсльброт заңы. Бұл заңның нсгізін қалаушы француз галымы Эсту 1916 жылы стенографияны жетіддірумен айналысу барысында ранг-жиілік тәуелділігін байқады. Ксйінірек бұл заң Ципф, Мандсльброт тағы басқа галымдармсн дәлелденіп, толықтырылып "Эсту-Ципф-Мандельброт заңы" деген атқа ие болды. Рангіден заң параметрінің функциональды тәуелділігін анықтау міндеті В.Калинин мен Э.Макаев еңбектерінде шешімін тапты (46; 47]. Бұл заң сөздің жиілігі мен жиілік тізіміндегі оның рангісі арасында кему жиілігі бойынша байланысты қалыптастырады және берілген рангі бойынша мәтіннен кездейсоқ алынған сөздің пайда болу ыктималдығын шамалап есептеуге мүмкіндік береді, яғни, сөз бен оның берілген реітік нөмірі арасыіідағы пропорцияны анықхауға жағдай жасайды. Заңның параметрлерін ссептеу Ғ,=КтК(і+р)"'' формуласымен өрнектеледі, Мұндагы Ғ, - тізімдегі сөздін (сөз формасының) абсолюіті жиілігі, і - тізімдегі сөздердің (с/ф) реггік нөмірі, N - сөз қолданыстармен алгандагы таңдама көлемі; к, р, ү -заңның параметрлері. К, р, ү - шамаларының тұрақты мәндерін анықтау арқылы зерттеуімізде БСО мен БӘ сөздсрдің қолданылу жиілігін оның рангісі тіліндс 68% үлесті қамтыса, ал флективті орыс тілінде бұл аумақтагы лексикалық бірліктер мәтіннің 58%-ын қүрап, агглютинативті тілдердің көрсеткіштеріне шамалас дсңгсйдсн корінсді (12-кссте). Бұл жердс мәтіннің сөзбсн кдмтылуындагы айырмашылық тілдердің типтік белгілсрінс қарай смес, стилі мен тақырыптық айырмашылыктарына байланысты. Мысалы, 50 ж. және 70 ж. мектеп оқулықтарына қараганда сөздік қоры бай БӘ бұл аумақтағы лексикалық бірліктермен қамтылуы өте төмен (59,41%). Бұған керісінше, онымен салыстырғанда сөздік қоры жүгаңцау болып келетін 1950-2000 ж.ж. БСО мәтіндері жиі кездесетін сөздермен қамтылудың өте жоғары дәрежесін керсетеді (78%-83%).
2. Барлық тілдср бойынша алынған мәтіндердің жиілік сөздіктері түрлі аумақтар бойынша сөзбен кдмтылудың шамамен алганда бірдей дәрежедегі осу кдрқынын байқатты (Қосымша А). Қазіргі таңцағы статистикалық аппараттың тәжірибесі мәтіннің статистикалық құрылымы жайында алынған нәтижелерді дәлелді түрде бағалауға мүмкіндік беретін көптеген әдістерге бай екені бслгілі [32,68]. бойынша және ксрі тәуслділік бойынша анықтап, оқулық мәтіндері мен БӘ статистикалық құрылымының ерекшеліктсрін айқындадық (13-19-ксстслер). Ципф заңының парамстрін (К) мына формулалармен анықтауга болады
к = -
|
ІТІІП 1
|
|
|
|
|
N
|
|
тізбектеі
|
"І
|
сөздің
|
абсолютті
|
жи
|
ілігі,
|
Мұндағы Ғ, -
минималды ранг, N - тандама көлемі. Мандельброт заңының параметрін (ү) мына формула бойынша анықтауға болады:
ү
■Ғт
Мұндағы Ғі - сөздің абсолютті жиілігі, т - осы жиіліктегі сөздердің (сөз формаларының) саны, Ітах- максималды ранг. Параметрлерді есептеу Ғ,=Г\[К(і+р)~ у формуласы бойынша ЭЕМ-да іскс асырылды.
13-кесте — 50 ж. БСО мәтіндерінің жиілік қүрылымы
|
Сөз
|
ғ,
|
№ к/с
|
Сөз
1
|
ғ,
|
|
1. ол-м
|
3609
|
26
|
жат-с
|
751
|
|
2. де-е
|
3374
|
27
|
жаттығу-з
|
749
|
|
3. Бол-е
|
3142
|
■ 28
|
ал-ш
|
747
|
|
4. да-ш ,>
|
2301
|
29
|
қандай-м
|
747
|
|
5. Бір-а
|
2024
|
30
|
кет-с
|
742
|
|
6. бала-з
|
1769
|
31
|
ме-ш
|
742
|
|
7. е-е
|
1510
|
32
|
және-ш
|
726
|
|
8. Кел-е
|
1462
|
33
|
жаз-е
|
720
|
|
9. неше-м
|
1371
|
34
|
бар-е
|
717
|
|
10. Күн-з
|
1270
|
35
|
екі-а.
|
710
|
|
11. ал-с
|
1256
|
36
|
үй-з
|
710:
|
|
12. Сөз^с
|
1120
|
37
|
екінші-а
|
684:
|
|
13. тур-с
|
1124
|
38
|
ағаш-з
|
654
|
|
14. Бар-д
|
1066
|
39
|
қой-е
|
647
|
|
15. не-м
|
1007
|
40
|
қара-е
|
615
|
|
16. Бер-е
|
954
|
41
|
су-з
|
615
|
|
17. Жүр-е
|
945
|
42
|
мына-м
|
601
|
|
18. біз-м
|
934
|
43
|
сан-з
|
596
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
19. бұл-м
|
902
|
44
|
жер-з
|
596
|
20. Мен-м
|
870
|
45
|
оқы-с
|
596
|
21. Оал-с
|
818
|
46
|
үшін-ш
|
584
|
22. айт-е
|
802
|
47
|
көр-е
|
580
|
23. шық-с
|
801
|
48
|
сал-с
|
563
|
24. дс-ш
|
779
|
49
|
керек-ш
|
544
|
25. өз-м
|
760
|
50
|
жол-з
|
539
| Онда жоғарыдағыдай ранг-жиілік тәуелділігінің ксстесі берілді (13-кесте).
Бұл кестелср 50,70 жылдардағы БСО мен БӘ мәтіндерінің статистикалық құрылымын сипаттайтын негізгі кестелер болып табылады. Эсту-Ципф-Мандельброт заңының параметрлерін салыстыру 50-70 жылдардағы БСО мен БӘ мәтіндерінің статистикалық құрылымындагы салыстырмалы түрдегі ұқсастықтарды анықгауға мүмкіңдік бсреді.
14 кесте — 70 ж. БСО мәтіндерінің жиілік сөздіктері бойынша құрылымынан үзінді
|
Сөз
|
ғ,
|
№
к/с
|
Сөз
|
ғ,
|
|
1. ол-м
|
4982
|
26
|
неше-м
|
1125
|
|
2. бол-е
|
3736
|
27
|
де-ш
|
1102
|
|
3. де-е
|
2935
|
28
|
қал-е
|
1083
|
|
4. бір-а
|
2188
|
29
|
қой-с
|
1075
|
|
5. е-е
|
2029
|
30
|
не-м
|
1072!
|
|
6. сан-з
|
1965
|
31
|
ал-е
|
1033
|
|
7. шығар-е
|
1804
|
■ 32
|
жүр-е
|
997
|
|
8. жаз-е
|
1798
|
33
|
біз-м
|
972
|
|
9. сөз-з
|
1707
|
34
|
мен-ш
|
970
|
|
10. кел-е
|
1705
|
35
|
екі-а.
|
964
|
|
11. да-ш
|
1681
|
36
|
осы-м
|
926
|
|
12. және-ш
|
1677
|
37
|
оқы-е
|
922
|
|
13. бала - з
|
1445і
|
38
|
сол-м
|
893
|
|
14. түр-е
|
1423 і
|
.39
|
қандай-м
|
863;
|
|
15. шық-с
|
1400
|
40
|
қанша-м
|
832
|
|
16. жаттығу-з
|
1315
|
41
|
есеп-з
|
831
|
|
17. күн-з
|
1269
|
42
|
су-з
|
820
|
|
18. жер-з
|
1263
|
43
|
кет-е
|
792
|
20. бул-м
|
1249
|
45
|
көр-е
|
792
|
|
21. бср-е
|
1208
|
46
|
үй-з
|
768
|
|
22. қара-с
|
1185
|
47
|
ор-м
|
744
|
|
23. айт-е
|
1162
|
48
|
сөйлем-з
|
729
|
|
24. мен-м
|
1154
|
49
|
отыр-е
|
728
|
|
25. өз-м
|
1145
|
50
|
ал-ш
|
691
|
|
Кестелерден көрінгеңдсй, тандама көлсмі 185961 сөз қолданыс, 10298 сөзді қамтитын 50 жылдардағы БСО жиілігі сң жоғары ол, неше, не, біз, бұл, мен, өз, қандай, мына есімдіктері барлық тандаманың 28,20%-ын қамтитын 52448 сөз қодданыстағы реестрдің ең жоғарғы жағына орналасқан 50 сөздің 20,58%-ын қамтыса, етістіктердің ішінде де, бол, е, кел, ал, түр, бер, жур, қал, айт, шық, жат, кет, жаз, бар, қой, қара, оқы, көр, сал тұлғасындағы жиі қолданыстар 42,19%-ын, зат есімдердің ішінде кун, сөз, жаттыгу, үй, агаш, су, сан, жер, жол тұлғасындағы жиі қолданыстар 13,05%-ын қамтиды. Көмекші сөздердің ішінде ең жиі қолданылатындары де, ал, мен, және, шін, керек шылаулары 12,24%-ын қамтыған. Ал бар атты Өртарап мағынаны білдіретін сөз 2,03%-ын, бір деген сан есім 3,85%-ын алып тұр.
Бұл мысалдар арқылы 50 жылдардағы оқулық мәтіндерінің құрылымындағы берілген жпіліктсгі сөз бсн оның рангісі арасындағы пропорцияны көреміз. Осы кестемен салыстыру мақсатында 70 жылдардағы оқулықтардың мәтіндеріндегі ең жиі қолданыстагы 50 сөзді алып, оларды жиілігі бойынша орналастырсақ, олардың жиілік құрылымындағы мынадай ерекшеліктерді байқаймыз:
Таңдама көлемі 241984 сөз қолданыс, 12281 сөзге теа 70 жылдардағы оқулық мәтіндеріндегі барлык. сөздіктің 27,74%-ын қамтитын 67136 сөз қолданысқа тең 50 сөздің 22,17%-ын ол, мен, бул, өз, неше, не, біз, осы, сол, кандай, канша, әр есімдіктері, 39,21%-ын бол, де, е, шыгар, жаз, кем, тұр, шык, бер, айт, қал, кой, ал, жур, оқы, кет, көр, отыр етістіктері, 18,04%-ын сан, сөз, бала, жаттығу, кун, жер, есеп, су, үй, сәйлем сскілді зат есімдер қүраса, қалған 9,11%-ын да, және, де, мен, ал шылаулары, 5,86%-ын бір, екі, екінші сан есімдері, 5,86%-ын Өртарап мағынаны білдіретін бар сөзі құрайды. Бұл мысалдар 70 жылдардағы БСО мәтіндерінің лексикалық бірліктермен қамтылуындағы өзіндік ерекшелігін көрсетеді.
Демек, өзге сөз таптарына кдрағанда өмірдің түрлі саласындаіы қат-кабат қолданысы айқын білінстін етістіктер алғашқы орында түрса, баланың алғашқы сөйлеу әрекетіндеғі негізгі сөздік қорын қүрайтын есімдіктер одан кейінгі екінші орында, ал жалпы мәтіннің көлемі бойынша сөз қолданыс жөнінсн алғашқы орындағы зат есімдер келтірілген үзіндідс үшінші орында түр.
Өйткені, етістіктер лексика-семантикалық ерекшелігі жағынан, түбір тұлғасы мен оган үстелетін грамматикалық категорияларының қат-кдбаттығы жагынан өте күрделі сөз табының бірі. Енді осы лсксикалық спсктрдіц ксстссін кслтірсйік:
15-кесте — БӘ мәтіпдсрінің жиілік сөздіктсрі бойынша құрылымынан үзінді
Сөз
|
ғ,
|
№ қ/с
|
Сөз
|
ғ,
|
1. бол-е
|
1786
|
26
|
айт-е
|
389
|
2. сөз-з
|
1769
|
. 27
|
шық-е
|
374
|
3. де-ш
|
1702
|
28
|
көз-з
|
369
|
4. ол-м
|
1278
|
29
|
отыр-е
|
362
|
5. бір-а
|
1231
|
30
|
қара-е
|
350
|
6. кел-е
|
1107
|
31
|
біл-е
|
337
|
7. да-ш
|
1028
|
32
|
өт-е
|
336
|
8. ал-е
|
1001
|
33
|
үй-з
|
329
|
9. е-е
|
920
|
34
|
бср-с
|
3261
|
10. түр-е
|
52і
|
35
|
бар-д
|
|
11. де-ш
|
281
|
36
|
не-м
|
315
|
12. мсн-м
|
700
|
37
|
он-а
|
311
|
13. жүр-е
|
597
|
38
|
мен-ш
|
304
|
14. ез-м
|
596
|
39
|
бас-з
|
291
|
15. күн-з
|
592
|
40
|
адам-з
|
289
|
16. бұл-м
|
536
|
41
|
ат-з
|
282
|
17. сол-м
|
514
|
42
|
біз-м
|
278
|
18. бар-с
|
468
|
43
|
адд-к
|
274
|
19. жер-з
|
467
|
44
|
көп-д
|
273
|
20. көр-е
|
439
|
45
|
кел-з
|
2"б8~!
|
21. жат-е
|
436
|
46
|
ғой-ш
|
267
|
22. барынша-ү
|
411
|
47
|
қой-е
|
266
|
23. кет-е
|
399
|
48
|
сал-е
|
250]
|
24. осы-м
|
396
|
49
|
соң-ш
|
250
|
25. жоқ-д
|
391
|
50
|
жыл-з
|
247]
|
Достарыңызбен бөлісу: |