22
айырмашылықтарына байланысты. Мысалы, 50ж.және 70ж. Мектеп оқулықтарына қарағанда сөздік қоры бай БӘ бұл аумақтағы лексикалық бірліктермен қамтылуы өте төмен (59,41 %). Бұған керісінше, онымен салыстырғанда сөздік қоры жұтаңдау болып келетін 1950-2000ж.ж. БСО мәтіндері жиі кездесетін сөздермен қамтылудың өте жоғары дәрежесін көрсетеді (78%-83%).
2. Барлық тілдер бойынша алынған мәтіндердің жілік сөздіктері түрлі аумақтар бойынша сөзбен қамтылудың шамамен алғанда бірдей дәрежедегі өсу қарқынын байқатты. Қазіргі таңдағы статистикалық ақпараттың тәжірибесі мәтіннің статисикалық құрылымы жайында алынған нәтижелерді дәлелді түрде бағалауға мүмкіндік беретін көптеген әдістерге бай екені белгілі.
Әдетте статистикалық құрылымы ретінде мәтіндегі сөздер саны мен олардың мәтінде көрінетін жиілігі арасындағы қарым-қатынасты айтатыны белгілі. Мәтіннің статистикалық құрылымының моделі ретінде сөздік тізіміндегі сөздің рангісі мен оның жиілігі арасында кері тәуелділік қалыптасатын жиілік сөздіктерді санауымызға болады. Аталған тәуелділікті дәлелдеу бағытындағы зерттөудің бастыларының бірі - Эсту-Ципф-Мандельброт заңы. Бұл заңның негізін қалаушы француз ғалымы Эсту 1916 жылы стенографияны жетілдірумен айналысу барысында ранг-жиілік тәуелділігін байқады. Кейінрек бұл заң ЦИПФ, Мандельброт тағы басқа ғалымдармен дәлелденіп, толықтырылып "Эсту-Ципф-
23
Мандельброт заңы" деген атқа ие болды.
Рангіден заң параметрінің функциональды тәуелділігін анықтау міндеті В.Калинин мен Э.Макаев еңбектерінде шешімін тапты. Бұл заң сөздің жиілігі мен жиілік тізіміндегі оның рангісі арасында кему жиілігі бойынша байланысты қалыптастырады және берілген рангі бойынша мәтіннен кездойсоқ алынған сөздің пайда болу ықтималдығын шамалап есептеуге мүмкіндік береді, яғни, сөз бен оның берілген реттік нөмірі арасындағы пропорцияны анықтауға жағдай жасайды. Заңның параметрлерін есептеу Ғі=І\ІК(і+р)~7 формуласымен өрнектеледі, мұндағы Ғ1 - тізімдегі сөздің (сөз формасының) абсолютті жиілігі, і -тізімдегі сөзфрдің (с/ф) реттік нөмірі, N - сөз қолданыстармен алғандағы таңдама көлемі; к,р,ү - заңның параметрлері.
К,р,ү - шамаларының тұрақты мәндерін анықтау арқылы зерттеуімізде БСО мен БӘ сөздердің қолданылу жиілігін оның рангісі бойынша және кері тәуелділік бойынша анықтап, оқулық мәтіндері мен БӘ статистикалық құрылымының ерекшеліктерін айқындадық. Ципф заңының параметрін (К) мына формулалармен анықтауға болады
К= Ітіп Fi /N
Мұндағы Ғі, — сөздің абсолютті жиілігі, imin минималды ранг, N - таңдама көлемі. Мандельброт заңының параметрін (ү)мына формула бойынша анықтауға болады:
ү = imax/ Fi m
24
Мұндағы Ғ^ - сөздің абсалютті жиілігі, осы жиіліктеп сөздердің (сөз формаларының) саны, I - максималды ранг. Параметрлерді есептеу Ғі = NK (і+р)ү формуласы бойынша ЭЕМ-да іске асырылды.
|
50 ж.
|
БСС
|
) мәтіндерінің жиілік
|
құрылымы.
|
Сөз
|
f
|
"1
|
№ қ/с
|
Сөз
|
|
ғ1
|
1. ол-м
|
3609
|
|
26
|
жат-е
|
|
751
|
2. де-е
|
3374
|
|
27
|
жаттығу-з
|
|
749
|
3. Бол-е
|
3142
|
|
28
|
ал-ш
|
|
747
|
4. да-ш
|
2301
|
|
29
|
қандай-м
|
|
747
|
5. Бір-а
|
2024
|
|
30
|
кет-е
|
|
742
|
6. бала-з
|
1769
|
|
31
|
ме-ш
|
|
742
|
7. е-е
|
1510
|
|
32
|
және -ш
|
|
726
|
8. Кел-е
|
1462
|
|
33
|
жаз-е
|
|
720
|
9. неше-м
|
1371
|
|
34
|
бар-е
|
|
717
|
10. Күн-з
|
1270
|
|
35
|
екі-а
|
|
710
|
11. ал-е
|
1256
|
|
36
|
үй-з
|
|
710
|
12. Сез-е
|
1120
|
|
37
|
екінші-а
|
|
684
|
13. тур-е
|
1124
|
|
38
|
ағаш-з
|
|
654
|
14. бар-д
|
1066
|
|
39
|
қой-е
|
|
647
|
15. не-м
|
1007
|
|
40
|
қара-е
|
|
615
|
16. бер-е
|
954
|
|
41
|
су-з
|
|
615
|
17. жүр-е
|
945
|
|
42
|
мына-м
|
|
601
|
18. біз-м
|
934
|
|
43
|
сан-з
|
|
596
|
19. бұл-м
|
902
|
|
44
|
жер-з
|
|
596
|
20. мен-м
|
870
|
|
45
|
оқы-с
|
|
596
|
21. сал-е
|
818
|
|
46
|
үшін-ш
|
|
584
|
22. айт-е
|
802
|
|
47
|
көр-а
|
|
580
|
23. шық-е
|
801
|
|
48
|
сал-е
|
|
563
|
24. де-ш
|
779
|
|
49
|
керек-ш
|
|
544
|
25. өз-м
|
760
|
|
50
|
жол-з
|
|
539
|
Онда жоғарыдағыдай ранг-жиілік тәуелділігінің кестесі берілді.
Бұл кестелер 50,70 жылдардағы БСО мен БӘ мәтіндерінің статистикалық құрылымын сипаттайтын негізгі кестелер
25
болып табылады. Эсту-Ципф-Мандельброт заңының параметрлерін салыстыру 50-70 жылдардағы салыстырмалы түрдегі ұқсастықтарды анықтауға мүмкіндік береді.
70- ж. БСО мәтіндерінің жиілік сөздіктері бойынша құрылымынан үзінді
Сөз
|
Ғі
|
№ қ/с
|
Сөз
|
Ғі
|
1. ол-м
|
4982
|
26
|
неше-м
|
1125
|
2. бол-е
|
3736
|
27
|
де-ш
|
1102
|
3. де-е
|
2935
|
28
|
қал-е
|
'1083
|
4. бір-а
|
2188
|
29
|
қой-е
|
1075
|
5. е-е
|
2029
|
30
|
не-м
|
1072
|
6. сан-з
|
1965
|
31
|
ал-е
|
1033
|
7. шығар-е
|
1804
|
32
|
жүр-е
|
997
|
8. жаз-е
|
1798
|
33
|
біз-м
|
972
|
9. сөз-з
|
1707
|
34
|
мен-ш
|
970
|
10. кел-е
|
1705
|
35
|
екі-а
|
964
|
11. да-ш
|
1681
|
36
|
осы-м
|
926
|
12. және-ш
|
1677
|
37
|
оқы-е
|
922
|
13. бала-з
|
1445
|
38
|
сол-м
|
893
|
14. түр-е
|
1423
|
39
|
қандай-м
|
863
|
15. шық-е
|
1400
|
40
|
қанша-м
|
832
|
16. жаттығу-з
|
1315
|
41
|
ескінші-а
|
831
|
17. күн-з
|
1269
|
42
|
су-з
|
820
|
18. жер-з
|
1263
|
43
|
кет-е
|
792
|
19. бар-д
|
1250
|
44
|
екінші-а
|
787
|
20. бұл-м
|
1249
|
45
|
көр-е
|
792
|
21. бер-е
|
1208
|
46
|
үй-з
|
768
|
22. қара-с
|
1185
|
47
|
әр-м
|
744
|
23. айт-е
|
1162
|
48
|
сөйлем-з
|
729
|
24. мен-н
|
1154
|
49
|
отыр-е
|
728
|
25. өз-м
|
1145
|
50
|
ал-ш
|
691
|
Достарыңызбен бөлісу: |