Лингвистикалық тілдік базаның Сводеш тізімі (Swadesh list) —тілдегі тарихи жағынан тұрақты,өзгеріске бейім емес сөздердің жиынтығы. Бұл тізім тілдердің туыстығын анықтау үшін қолданылады. Американдық лингвист Моррис Сведеш ұсынған ең тұрақты негізгі сөздіктің ұқсастығы сияқты әр түрлі тілдердің туыстық дәрежесін бағалау құралы. Бұл нақты бір тілдің негізгі базалық лексемдерінің тізімін және олардың негізгі «түбірін» анықтауға арналған тізім. Сводеш тізімі 100-200 базистік лексикадан тұрады. Эйнар Хауген америкалық лингвист тілдік бірліктердің кірме сөздер бейімділік шкаласын құрудың алғашқы әрекеттері XIX ғасырдың соңында жасалғанын атап өтті. 1955 жылы Моррис Сводеш тілдердің туыстығын олардың құрамының ұқсастығы бойынша бағалау үшін қызмет ететін 200 бірліктен тұратын негізгі лексиканың тізімін жасайды.
Тиісінше, М. Сводештің айтуынша, негізгі тізімге кірмейтін лексиканы кірме сөздерден алуға болады. Алайда, еуропалық тілдерге негізделген эксперименттік зерттеулердің нәтижелері зат есімдер, одан кейін етістіктер қабылдау процесінде сандық тұрғыдан басым орын алатындығын көрсетті. Кірме сөздерінің базасын құру, олардың ықтимал тетіктерін анықтау, тілдердің типтері және оларды анықтау жөніндегі жоба (Loanword Typology Project) М.Планка атындағы эволюциялық антропология институтында 2004 жылдан бастап жүргізіліп келеді. Жоба барысында алынған мәліметтерге сәйкес, ағылшын тілі жоғары кірме сөздер қоры индексіне ие.
Ағылшын тіліндегі түркизмдерді қарастыратын лингвистикалық корпустар классификациясы туралы айтар болсақ, олар
- Британ Ұлттық Корпусы (British National Corpus-BNC) - бұл ХХ ғасырдың екінші жартысындағы ағылшын тіліндегі Британдық нұсқаның жазбаша және ауызша мәтіндерінің жиынтығы, жалпы көлемі 100 млн сөз.Оның базасының 90% - ын бейнелейтін корпустың жазбаша бөлігінде аймақтық және ұлттық газеттерден, мерзімді басылымдардан және журналдардан әр түрлі аудиторияға арналған үзінділер; ғылыми басылымдардан, көркем әдебиеттерден үзінділер; хаттар, жазбалар, мектеп және университет жазбалары және басқа да мәтіндер бар.Ауызша бөлім (10%) Әр түрлі әлеуметтік таптарға жататын Ұлыбританияның барлық аймақтарында тұратын әр түрлі жастағы 124 ақпарат беруші жазған транскрипттер түрінде ұсынылған.
-Ағылшын тілінің қазіргі американдық нұсқасының корпусы (The Corpus of Contemporary American English- COCA) Корпустық лингвистика профессоры Марк Дэвиспен 2000-2003 жылдары Time журналының 1923 жылдан бастап жазылған мәтіндері негізінде құрылған мәтіндердің электрондық корпусы. Бұл ағылшын тіліндегі американдық нұсқаның мәтіндерінің ең үлкен (450 миллион сөз) корпусы және әр түрлі жанрдағы мәтіндердің алуан түрін қамтитын осы тілдегі жалғыз еркін қол жетімді корпус. Ол 160 мыңнан астам мәтіндерден тұрады, оның ішінде 1990 жылдан 2011 жылға дейін әр жыл үшін 20 миллион сөз. Бұл мәтіндердің ең көп қолданылатын құрылымдық корпусы, оны ай сайын шамамен 10 000 адам пайдаланады.
- Ағылшын тілінің американдық нұсқасының Тарихи корпусы (The Corpus of Historical American English - CoHA)- Бригам Янг университетінде АҚШ гуманитарлық ғылымдар Ұлттық қорының қаржылық қолдауымен құрылған, ағылшын тілінің ең үлкен тарихи корпусы. Ол ағылшын тілінің американдық нұсқасынан 400 миллионнан астам сөздерді қамтиды және 1810 жылдан 2011 жылға дейінгі кезеңді қамтиды.Бұл корпустың оның аналогтарымен салыстырғанда негізгі артықшылықтары оның көлемі мен ауқымы болып табылады, бұл сізге ағылшын тілінің американдық нұсқасында морфологиялық, грамматикалық, лексикалық және синтаксистік деңгейлерде болатын диахрондық өзгерістерді бақылауға мүмкіндік береді.
Time журналы корпусы ( Time Magazine Corpus)- бұл 1923 жылы наурызда құрылғаннан бері TIME жаңалықтар апталығының сканерленген нұсқалары.Америкалықтан басқа, еуропалық (Лондон), азиялық(Гонконг) және австралиялық (Сидней) журнал нұсқалары. Корпуста 275 мыңнан астам мәтін және 100 миллион сөз бар.
Достарыңызбен бөлісу: |