195
насчитывается более тысячи корпусов, их количество растет с каждым годом экспоненци-
ально. Успешно работают в этом направлении исследователи и в тюркологии, в частности,
заслуживающие внимания теоретические работы ведутся в казахском языкознании [11-13].
Сформированные идеи и подходы корпусной лингвистики применяются и к диалектоло-
гическим материалам, при составлении корпусов диалектов. Часть таких корпусов включена
в состав национальных корпусов, часть функционирует как самостоятельный корпус. К при-
меру, корпусы диалектов немецкого языка (подкорпусы Мангеймского проекта) охватывают
4 группы корпусов, посвященных разновидностям немецкого языка (Sprachvarietaten) на тер-
ритории Германии и за ее пределами [14].
В России известны корпусы ижимского говора коми языка [15], Саратовский корпус рус-
ских говоров [16], Мультимедийный корпус диалектных текстов Устьянского района Архан-
гельской области [17], диалектный подкорпус Национального корпуса русского языка [18] и
др.
Задача создания корпуса башкирских диалектов впервые поднимается в башкирской
лингвистической науке. В то же время у коллектива имеется большой научный задел по разра-
ботке лингвистических корпусов башкирского языка. На сегодняшний день в сети Интернет
функционируют корпусы прозы, публицистики и фольклора, снабженные экстралингвисти-
ческой и лингвистической (морфологической и семантической) системой разметок [19-21].
Для получения объективных результатов по диалектам и говорам башкирского языка не-
обходимо создание репрезентативного корпуса диалектных текстов, максимально охватыва-
ющий все говоры диалектов и содержащий богатую металигвистическую разметку представ-
ленного текста, как возраст, гендерная принадлежность, уровень образования, возраст, язык
общения, национальность информантов, разнообразие тем для беседы и т.д. В корпусе будет
представлена расшифровка звуковых файлов в виде траскрибированных текстов, их литера-
турный вариант и русский перевод диалектного текста.
На данном этапе работы сотрудники Лаборатории лингвистики и информационных тех-
нологий начали сбор и обработку речевого материала по восточному диалекту башкирского
языка. Рассматриваемый диалект включает 5 говоров: айский, сальютский, аргаяшский, ми-
асский, кизильский.
1) Для сбора полевых материалов выбрано 28 населенных пунктов Республики Башкор-
тостан, Челябинской, Свердловской и Курганской областей Российской Федерации. Выбра-
ны те населенные пункты, которые были в свое время определены в качестве опорных пун-
ктов для диалектологического атласа башкирского зыка.
2) По каждому населенному пункту производится запись минимум 12 информантов: 2
записи по половому признаку, 6 записей по возрастным группам. Выделяются следующие
возрастные группы:
– дошкольный и начальный класс (до 11 лет),
– средний школьный (от 11–15 лет),
– старший и студенческий возраст (16–25 лет),
– средний возраст (25–45 лет),
– старший возраст (45–65 лет),
– пожилой возраст (от 65 лет).
Учитывается образование информанта:
начальное, среднее, высшее.
3) Аудиозапись сопровождается информацией, которая составляет экстралингвистиче-
скую разметку аудиофайла:
– пол: мужской, женский;
– образование: начальное, среднее (среднее школьное или суз), высшее;
– возраст;
– язык обучения: башкирский, русский, татарский, чувашский;
196
– язык общения в семье: башкирский, русский, татарский;
–
национальность информанта;
– имя, отчество, фамилия;
– место последнего долгого проживания до переезда в данное место (в случае переезда);
– время проживания до последнего места проживания (в случае переезда);
– время записи.
4) Выделяется тип общения: монолог, диалог, полилог.
5) Для записи информантов определены следующие 15 тем:
– свадьба, свадебные обычаи;
– обычные блюда (что любят готовить на каждый день, что на праздниках);
– какой скот и как содержат;
– дети и близкие родственники (система родства);
– приусадебное хозяйство (огород, сад);
– о доме (когда построен,
кто строил, крыша, рамы);
– топонимия в окрестностях поселения;
– история села, школы, рода;
– работа, школа, друзья;
– времена года, погода;
– частушки, пословицы,
поговорки, сказки (какие знают);
– поездка в райцентр (по каким делам, каким транспортом пользуются);
– игры детей (какие игры и как играют);
– друзья детей (какие у детей друзья, где они живут);
– животный мир около поселения (какие птицы и звери обитают).
6) Запись осуществляется на цифровой диктофон в несжатом формате (.WAV, 16бит/22kHz
– 16бит/48kHz), при отсутствии посторонних звуков, хотя отдельными исследователями и
отмечается, что записи в потенциально шумных местах также представляют интерес, по-
скольку «они отражают разные коммуникативные ситуации» [22, с. 57].
Первичная обработ-
ка аудиозаписей (очистка от посторонних шумов и длительных пауз), паспортизация произ-
водится в программе Sound Forige.
7) Паспортизация файлов и экстралингвистическая разметка частично включается в име-
на аудиофайлов:
1. v – восточный диалект, aj – айский говор, ar – аргаяшский говор, sl – сальютский говор,
mi – миасский говор, kz – кизильский говор;
2. m – мужчина, w – женщина;
3. образование: n – начальное образование, s – среднее образование, v – высшее образование;
4. номер возрастной группы: 1 – дошкольный и начальный класс (до 11 лет), 2 – средний
школьный (от 11–15 лет), 3 – старший и студенческий возраст (16–25 лет), 4 – средний воз-
раст (25–45 лет), 5 – старший возраст (45–65 лет), 6 – пожилой возраст (от 65 лет);
5. t1 – t15 – темы;
Например, файл varwvt84d003 – означает принадлежность звукового файла восточному
диалекту, аргаяшскому говору, в котором осуществлена запись на тему “история села, школы,
рода” женщиной среднего возраста с высшим образованием.
Дополнительные коды информанта: от d001 до d999. Этот код является именем тексто-
вого файла, в котором указывается имя, фамилия, отчество, язык обучения, язык общения
в семье, национальность информанта, место последнего долгого проживания до переезда
в данное место (в случае переезда), время проживания до последнего места проживания (в
случае переезда), время проживания в данном месте, дата записи. Все данные разделяются
знаком @. Например: Зилда Ахмадиевна Мавлетова@б@б@б @Мишкино
Учалинский рай-
он РБ@10@25@12.08.2017 – имя этого файла d005.txt
197
Следует отметить, что многие проблемы башкирской диалектологии до сих пор остаются
вне поля зрения языковедов, например, относительно слабо изучен диалектный синтаксис,
процесс взаимовлияния и взаимообогащения диалектов, требуют более детального изучения
говоры северо-западного диалекта. Ждут своей очереди проблемы исследования в сопоста-
вительном аспекте диалектных данных башкирского языка с тюркскими, финно-угорскими
и другими языками. Таким образом, создаваемый корпус будет включать в себя богатый ди-
алектный материал, что станет бесценным источником для последующих изысканий в обла-
сти фонетики, лексики и грамматики башкирских говоров и диалектов башкирского языка.
Достарыңызбен бөлісу: