Документация к электронному словарю санскрита.
(160 тысяч слов, Монье-Вильямс, 1899г.)
Реализация для Lingvo – Анатолий Кайдалов (23 декабря 2002г – 7 апреля 2003г)
tolikkaidalov@yandex.ru
Источник словаря санскрита в интернете:
в качестве web-страниц с текстами: http://homepages.comnet.co.nz/~r-mahoney/mw_dict/mw_dict.html
в качестве программы: http://members.rott.chello.nl/l.bontes/sans_n.htm
для поиска Online: http://www.uni-koeln.de/phil-fak/indologie/tamil/mwd_search.html
В этой версии для Lingvo текст был доработан в плане разделения на вторичные зоны, цвета и пометы. Восстановлены древнегреческие и арабские написания. Были исправлены нелепости оформления статей и вторичных заголовков в используемых материалах, проверено соответствие числа открывающих и закрывающих кавычек, объединены разные статьи с одинаковым заголовком в одну (согласно концепции lingvo). Для статей, имеющих одинаковое написание, но вариантные расстановки ударений, написания с ударениями разделены внутри статьи. Сканирование словаря выполнено Кёльнским университетом, после чего 4 тысячи принтерных страниц корректировались индусами на бумаге, и исправления внесены были в компьютер.
Заинтересованные пользователи версии Лингво могут обратиться к Назару Кравциву
(nazar_k@rbcmail.ru) , который также отсканировал репринт словаря в виде битмапов в формате tif и может выслать их на CD-диске за определённую плату. Это необходимо, чтобы получить представление об оригинальном оформлении словаря, а также как безошибочный вариант.
Цвета и языки.
Санскритские примеры и ссылки выделяются тёмно-синим цветом.
Бледным (васильковым цветом) выделяются собственно парадигмы самого слова, формы падежей и времён.
Фиолетовым цветом (фуксия) выделяются сравнения с другими языками. Если сделать поиск на Engl., Pers., Germ., Lat, Gk., по поиску можно найти все сравнительные примеры для какого-либо языка.
Местами применяется чёрный курсив, хотя в книжном тексте он не использовался.
Для информации:
1) форма аорист используется в санскрите и древнегреческом, и обозначает мгновенное действие в прошлом.
2) для пометы mfn (m.f.n., или прилагательное) может приводиться вариант для женского рода, который как бы разрывает помету: mf(a)n.
Система транслитерации.
Слова даются в азбуке деванагари.
Как вы заметите, в компьютерном тексте санскритская буква а имеет другое начертание अ. Устаревшее книжное начертание имеет тот же код символа, но надо найти специальные шрифты (так же трудно будет найти русские шрифты, где буквы ц, щ имеют полную завитушку внизу).
Замечание. Некоторые лигатуры выглядят по-разному в разных компьютерных шрифтах Arial Unicode, Mangal, Raghindi.
Второй вариант - транслитерация, рассчитан на использование шрифта Arial Unicode MS (универсальный шрифт в составе MS Office).
Система транслитерации звуков sh, n (c волной, точкой и подчерком), ri выдержана та, которая использовалась в книжном варианте словаря Монье-Вильямса. Существуют другие современные системы транслитерации, но было решено их не применять, чтобы сохранить визуальное сходство со словарём. Используются диакритические знаки:
a + черта + ударение - ударение слабо перечёркивает черту, но всё же заметно на глаз.
а + черта + крышечка - было решено оформить черту снизу буквы, в крышечку сверху.
а + крышечка + ударение - используется знак из вьетнамских символов.
В случае ai, au c объединяющей дугой сверху, эта дуга нормально выглядит для сочетания au, но в случае ai оказалось, съезжает влево вследствие узости буквы i. Поэтому между i и надстрочной дугой вставлен символ SixPerEmSpace.
Также было замечено, если идёт t с точкой внизу, а затем i c крышечкой сверху и с чертой снизу, оказалось, эта черта мешает разглядеть точку под буквой t. Поэтому подстрочная черта была сдвинута вправо при помощи SixPerEmSpace.
Были восстановлены с книжных страниц древнегреческие и арабские (персидские) написания. Рассматривается вариант переписать славянские и армянские написания в родном шрифте, которые в книге оформлены через латиницу.
Внимание! Для корректного отображения персидских написаний именно справа налево должен быть включён арабский в Control Panel – Regional Settings (Язык и стандарты).
Письмо и лигатуры.
Письмо, наиболее употребительное для санскрита, - языка религии и литературы древней Индии, - называется devanāgari. Это же письмо используется и в современном языке хинди. В компьютерной раскладке есть буквы с точкой внизу (нукта) - они используются только в хинди, их нет в санскрите.
Письмо devanagari в основе своей силлабическое, т.е. каждое отдельное начертание выражает не одиночный звук, а целый слог, причём существенной частью слога считается согласный или группа согласных, предшествующих гласному. Из этого принципа вытекает:
1) алфавитные гласные буквы употребляются только в положении без предшествующих согласных, ибо только в этом случай гласные сами по себе образуют слог. Следуя же за согласными, гласные (кроме а) изображаются особыми знаками.
2) два или более согласных, образующих со следующим гласным один слог, выражаются сложным начертанием.
3) для обозначения одиночного согласного, не сопровождаемого гласным, должен быть употреблён особый знак Virama (наклонная черта снизу) क् = k.
4) гласные, следующие за согласным, выражаются следующим образом:
1. Краткий a не выражается никаким знаком, но подразумевается после согласного (или группы согласных), если последний не сопровождается каким-нибудь другим гласным знаком क = ka.
2. Долгий a обозначается отвесной чертой Т, следующей за согласным ;
3. краткая i ставится в обратном порядке букв कि, т.е. предшествует согласному, долгая i обозначается тем же знаком की, но ставится в нормальном порядке .
4. Краткий и долгий u обозначаются подстрочными крючками कुकू.
5. гласные ṛ ṝ ḷ - посредством подстрочных знаков कृकॄकॢ
6. e и ai посредством надстрочных знаков केकै, o и au посредством отвесной черты с теми же надстрочными знаками कोकौ.
Примечание. Некоторые согласные буквы в соединении со следующими гласными подвергаются незначительному видоизменению, таковы: d, r, h, ṡ + u, uu, r.
Отсутствие гласного при согласном обозначается подстрочным знаком virama (отдых, остановка) क्. Virama ставится только в конце предложения или перед паузой, если последний слог кончается на согласный. Отдельные же слова в предложении, подчиняясь фонетическим законам, примыкают к началам следующих слов и пишутся с ними слитно.
Если несколько согласных предшествуют гласному, то они соединяются в сложное начертание (лигатуру), в котором обыкновенно не трудно узнать формы отдельных согласных.
Правила для составления лигатур таковы:
1. От буквы, соединяемой с другой в лигатуру, берется её типическая часть, получаемая по опущении горизонтальной и отвесной линии.
2. Первая буква в лигатуре ставится либо рядом со второй, либо над нею, например (см. nda, nnа).
3. Затем лигатура получает обе обычные линии — вертикальную и горизонтальную.
В следующей таблице приведены употребительнейшие лигатуры:
Лигатуры из двух букв:
а) Горизонтальные:
1)
क्ख kkha
क्म kma
क्य kya
ख्य khya
ग्ग gga
ग्द gda
ग्ध gdha
ग्म gma
ग्य gya
घ्म ghma
घ्य ghya
2)
च्छ ccha
च्य cya
छ्य chya
ज्ज jja
ज्झ jjha
ज्म jma
ज्य jya
ञ्श ñṡa
3)
ट्य ṭya
ण्ट ṇṭa
ण्ड ṇḍa
ण्य ṇya
ण्व ṇva
4)
त्क tka
त्थ ttha
त्प tpa
त्म tma
त्य tya
त्व tva
त्स tsa
थ्य thya
द्म dma
ध्म dhma
ध्य dhya
ध्व dhva
न्त nta
न्थ ntha
न्द nda
न्ध ndha
न्म nma
न्य nya
न्व nva
न्स nsa
5)
प्म pma
प्य pya
प्स psa
ब्द bda
ब्ध bdha
ब्य bya
भ्य bhya
भ्व bhva
म्ब mba
म्भ mbha
म्य mya
6)
य्य yya
ल्प lpa
ल्य lya
ल्व lva
व्य vya
7)
श्म ṡma
श्य ṡya
ष्क shka
ष्ण shṇa
ष्प shpa
ष्म shma
ष्य shya
ष्व shva
स्क ska
स्त sta
स्थ stha
स्प spa
स्य sya
स्व sva
ह्म hma
ह्य hya
2) вертикальные:
1.
क्क kka
क्च kca
क्न kna
क्व kva
ग्न gna
घ्न ghna
ङ्क ṅka
ङ्ग ṅga
ङ्ख ṅkha
2.
च्च cca
ञ्च ñca
ञ्ज ñja
3.
ट्ट ṭṭa
ड्ग ḍga
ड्व ḍva
4.
त्न tna
द्ग dga
द्न dna
द्ब dba
द्व dva
ध्न dhna
न्न nna
5.
प्त pta
प्न pna
प्ल pla
प्व pva
म्न mna
म्ल mla
6.
ल्ल lla
7.
ष्ट shṭa
ष्ठ shṭha
ष्ण shṇa
स्न sna
ह्ण hṇa
ह्न hna
ह्ल hla
ह्व hva
Некоторые буквы, соединяясь в лигатуру, подвергаются незначительному видоизменению:
क्त kta
क्ल kla
त्त tta
द्द dda
द्ध ddha
द्भ dbha
द्य dya
श्च ṡca
श्न ṡna
श्ल ṡla
श्व ṡva
Другие получают форму, совершенно отличную от обычной: क्ष - ksha, ज्ञ - jña, ण्ण - ṇṇa.
Следует заметить, что согласный r в лигатуре выражается двояко: находясь перед другим согласным, он обозначается знаком, noставляемым над согласным или над лигатурой согласных и притом направо от всех прочих надстрочных знаков arka, arkena; но, следуя за другим согласным, r обозначается подбуквенным знаком в виде наклонной чёрточки: क्र - kra, ग्र - gra, श्र - ṡra, त्र - tra.
Лигатуры трёх и более букв:
क्त्य ktya
क्त्व ktva
क्ष्म kshma
क्ष्म्य kshmya
क्ष्य kshya
ग्भ्य gbhya
च्छ्र cchra
ज्ज्व jjva
त्क्व tkva
त्क्ष tksha
त्त्र ttra
त्त्व ttva
त्प्र tpra
त्म्य tmya
त्र्य trya
त्स्थ tstha
त्स्न tsna
त्स्य tsya
त्स्व tsva
द्द्व ddva
द्ध्य ddhya
द्ध्व ddhva
द्ब्र dbra
द्भ्य dbhya
द्र्य drya
द्व्य dvya
न्त्य ntya
न्त्र ntra
न्त्व ntva
न्द्र ndra
न्व्य nvya
न्स्य nsya
न्ह्र nhra
प्त्य ptya
प्त्र्य ptrya
प्स्य psya
ब्ध्य bdhya
ष्क्र shkra
ष्ट्र shṭra
ष्ट्व shṭva
स्त्य stya
स्त्र stra
स्त्व stva
र्त्स्न्य rtsnya
Знак ° обозначает сокращение легко подразумеваемой части слова, например abhavam, —vas, —vat (я был, ты был, он был), где ° заменяет повторительное написание слогов abha-.
Цифры:
१२३४५६७८९० 1234567890 - имеют в санскрите другое начертание.
Сочетание этих знаков такое же, как в наших цифрах.
Ударение.
Ударение в санскрите основано на повышении тона в ударяемом слоге слова, т. е. ударение музыкальное. Индийские грамматики различают два основных тона (svara): повышенный udātta или acutus, и неповышенный anudātta или gravis. Третий тон svarita (circumflexus) второстепенного происхождения, представляющий соединение гласного, носящего acutus (udatta), с гласным неповышенным (anudatta) в один слог. Svarita почти всегда стоить на слоге, в котором краткому или долгому гласному предшествуют y или v, происшедшие из i и u, первоначально носивших acutus.
Замечание. Некоторые лигатуры выглядят по-разному в разных компьютерных шрифтах Arial Unicode, Mangal, Raghindi. Как вы заметите, некоторые вертикальные и трёхсложные лигатуре (приведённые выше), не отображаются как лигатуры в компьютерном шрифте, по крайней мере в Arial Unicode. С другой стороны, вертикальные лигатуры слишком громоздкие для реализации в компьютерном контексте и потом выглядят мелкими. Этот вопрос ещё будет уточняться, и возможно будет исправлен в будущей версии словаря. В печатных изданиях такие лигатуры имеют специальные знаки.
Пока эти лигатуры идут с вирамой, но в будущих версиях поддержки редких лигатур санскрита от Microsoft эта вирама возможно сама по себе исчезнет, как она исчезает в других лигатурах.
В частности, если использовать шрифт Code2000 (home.att.net/~jameskass/), то в этом шрифте прорисовываются лигатуры Nga+Ka и другие, но сам шрифт плохо выглядит в плане ровности и ширины букв.
Правильные (традиционные) начертания лигатур вы можете увидеть в картинке scanpage32.tif, как образец написания вертикальных и трёхсложных лигатур. (Горизонтальные лигатуры со страницы 31 уже перечислены в этом документе, и все они отображаются правильно, поэтому картинка страницы 31 не прилагается).
Замеченные нарушения сортировки
Для знаков санскрита такие существуют правила сортировки:
Слова с анусварой (точка вверху), предшествующей смычным и носовым, должны помещаться в словаре после носового соответствующего ряда. Например, sa’tata после sant. Слова с анусварой, предшествующей фрикативным, должны помещаться перед смычными. Например, sa’sad перед sa’kar.
Слова с висаргой (двоеточие), предшествующей фрикативным, должны помещаться в словаре после соответствующих фрикативных. Например, ni:shalya после nishvas, ni:Secana после niSSidh, ni:saNga после nisvara
По меньшей мере, при проверке оказывается, что например संतत идёт раньше, чем सन्त. То есть не так, как должно бы быть. То же самое можно сказать про все остальные вышеперечисленные правила.
В целом нарекание, что анусвара идёт по сортировке раньше всех согласных, в то время как она должна была бы идти в ряде случаев после них.
То же самое касается и висарги. Она идёт перед всеми согласными, в то время как должна была бы идти в ряде случаев после них.
Это очевидно объясняется тем, что сортировка в данный момент идёт в соответствии с кодами Unicode. Если посмотреть на порядок букв в программе Charmap для шрифта Mangal, то видно, что сначала идёт анусвара, потом висарга, а потом все гласные и согласные.
Долгие ri и LRi оказываются в самом конце словаря. Они должны быть на соответствующих местах алфавита.
Что касается серединных форм гласных (огласовок), то они на удивление все идут правильно. Видимо, такая сортировка уже поддерживается в Lingvo. За исключением короткой и долгой серединных "лрі", которые по кодам вынесены в самый конец.
Достарыңызбен бөлісу: |