Семантическое шкалирование антонимов русского и английского языка semantic scaling of Russian and English antonyms



жүктеу 105.67 Kb.
Дата25.06.2016
өлшемі105.67 Kb.
Потемкин С.Б.

Россия, г. Москва, МГУ им. Ломоносова

УДК 81-139



СЕМАНТИЧЕСКОЕ ШКАЛИРОВАНИЕ АНТОНИМОВ РУССКОГО И АНГЛИЙСКОГО ЯЗЫКА

Semantic scaling of Russian and English antonyms

Abstract.

The paper proposes an approach to the determination of correspondences between pairs of Russian and English antonyms. The result in the form of a list of Russian antonyms and the corresponding English antonyms is presented. Chains of quasi-synonymous words linking the antonymous pairs are constructed for a subset of adverbs. The different methods for the determination of semantic metrics in the Osgood’s space are described. A similar definition of the metric in the space with other antonymous axes is introduced. Coordinates of antonyms and those synonyms which connect antonimous pairs are displayed in the two-dimensional English-Russian bilingual space.



Аннотация

В статье предлагается подход к определению соответствий для пар антонимов русского и английского языка. Приведены результаты установления соответствия в виде списка русских антонимов и соответствующих им английских антонимов. Для антонимов-наречий построены цепочки слов-синонимов, связывающих антонимические пары. Приведены различные методы определения семантической метрики в пространстве Осгуда. Предложено аналогичное определение метрики в любых осях антонимов. В двумерном пространстве билингвы отображены координаты антонимов и связывающих их синонимов.



Ключевые слова: двуязычный словарь, антонимы, синонимы, пространство билингвы, дифференциал Осгуда, семантическая метрика, перевод.

Keywords: bilingual dictionary, antonyms, synonyms, bilingual space, Osgood's differential, semantic metric, translation.

1 Введение

Вопрос адекватной передачи слова, входящего в антонимическую пару языка оригинала его эквивалентом в целевом языке, представляет теоретический и практический интерес. Как известно, двуязычные словари дают множество слов-эквивалентов для одного слова исходного языка, причем не всегда эти эквиваленты являются синонимами. Задача подбора слова-эквивалента, наиболее близкого по своему семантическому наполнению к слову оригинала лежит в основном на переводчике и не всегда решается оптимальным образом, несмотря на наличие стилистических и тематических. помет, примеров использования и других подсобных средств, призванных облегчить выбор наиболее точного эквивалента.

Если же слово исходного языка входит в состав антонимической пары, задача подбора эквивалента целевого языка существенно упрощается. Действительно, переводчик, как правило, может распознать антонимию, и возможность выбора адекватного перевода будет ограничена тем словом-эквивалентом, которое также входит в антонимическую пару целевого языка. Это лишь один из возможных способов привлечения антонимии для практического использования, в частности, при переводе.

2. Определения

Лексическая антонимия характеризуется в лингвистических исследованиях как тип семантических отношений, устанавливаемых, прежде всего в парадигматическом плане, между лексическими единицами одной части речи, имеющими противоположные значения [12]. Проявлением лексической антонимии как свойства языка выступают антонимы – слова с противоположным значением. Степень противоположности значений антонимов, т.е. степень антонимичности, может быть различной. Так, например, значения слов warm и cool воспринимаются носителями английского языка как предельно противопоставленные, подобно словам superior и inferior, хотя обозначаемые ими температурные явления находятся в весьма близком диапазоне [7].

При переводе антонимические оппозиции, содержащиеся в языке оригинала, могут передаваться в языке перевода в формальном, и/или в семантическом плане. Однако такое соответствие достигается не всегда, что может быть обусловлено отсутствием лексических или грамматических средств в языке перевода по сравнению с языком оригинала, или собственными соображениями переводчика [9].



3. Лексические ресурсы

Основным тезаурусом для английского языка в течение многих десятилетий служил знаменитый тезаурус Роже [3], в котором собрано большое число синонимов, распределенных как в алфавитном, так и в идеографическом порядке. В настоящее время опыт тезауруса Роже обобщен в виде лексической базы данных WordNet [1], который является общепризнанным источником лексикографической информации. Простота структуры позволяет сравнительно легко встраивать эту базу знаний в прикладные системы. Основным структурным элементом WordNet являются синсет, синонимический ряд, кодирующий некоторое понятие. Между синсетами установлены немногочисленные ассоциативные отношения типа: гипоним, гипероним, синоним, голоним, мероним. Для многих лексических единиц, входящих в WordNet, указаны также антонимы. Число антонимических пар в WordNet превышает 10000. В то же время, даже для английского языка, покрытие лексики в оригинальном WordNet далеко не полно. Для языков, отличных от английского, имеющиеся ресурсы подобного рода значительно меньше по объему, составляя от 20 до 70% от английского [2]. Хотя русский язык не относится к языкам, бедным ресурсами, известно, что русский wordnet [8] менее развит, чем английский в отношении покрытия лексики и представленных семантических отношений. В качестве основного источника антонимов для русского языка нами принят Словарь антонимов М.Р. Львова [10] содержащий более 2000 антонимических пар. Пополнение списка антонимов из других словарей дало общее число пар антонимов равное примерно 7600. Нашей целью является сопоставление имеющихся антонимических пар русского и английского языков.

Двуязычный словарь, используемый как источник переводов, представляет собой лексическую базу данных – ЛБД [13], которая в своей основе имеет англо-русские и русско-английские словари, доступные в электронном виде и частично введенные в компьютер с бумажных носителей – всего более 30 словарей. Всего собрано и внесено в реляционную БД около 1.5 млн. записей. Каждая запись включает следующие поля:


  • английское слово (словосочетание)

  • POS английского слова

  • русское слово (словосочетание)

  • грамматика русского слова (по А.А. Зализняку)

  • лексические и стилевые пометы

  • список словарей, зафиксировавших данную англо-русскую пару эквивалентов. Представление ЛБД в виде реляционной таблицы позволяет легко проводить всевозможные сортировки, индексирование, вводить новые поля для записи производных данных и составлять программы обработки, пользуясь языками программирования БД (SQL).

4 Метод сопоставления антонимических пар

Суть метода сопоставления достаточно проста. Для каждого члена русской антонимической пары (Ra, Rb) в русско-английском словаре находятся все переводы, которые записываются в списки ({Eai}, {Ebj}). Затем каждая пара (Eai, Ebj) проверяется по словарю английских антонимов. Если пара (Eai, Ebj) зафиксирована в словаре антонимов, делается заключение, что пара (Eai, Ebj) есть перевод пары (Ra, Rb), причем Eai есть эквивалент для Ra, Ebj есть эквивалент для Rb, или Eai ~ Ra, Ebj ~ Rb. Дополнительным ограничением на возможность установления эквивалентности служит совпадение частей речи пар (Eai, Ebj) и (Ra, Rb). После выполнения вышеописанных действий был получен список переводов пар антонимов английского и русского языка (Таблица 1).



Таблица 1 Фрагмент списка антонимов английского и русского языка

Ea

Eb

Ra

Rb

acclaim

boo

аплодировать

освистывать

acclaim

hiss

аплодировать

свистеть

acclivity

descent

подъем

падение

acclivity

descent

подъем

спуск









accommodating

unobliging

любезный

нелюбезный

accommodating

unobliging

любезный

невежливый









accommodative

unobliging

любезный

нелюбезный

accommodative

unobliging

любезный

невежливый









accustomed

unaccustomed

обычный

необычный

accustomed

unaccustomed

привычный

непривычный

acknowledge

deny

подтвердить

опровергнуть

acknowledge

deny

подтверждать

опровергать









acquaintance

stranger

знакомый

неизвестный

acquiesce

dissent

соглашаться

возражать

action

inactivity

действие

бездействие

action

inactivity

деятельность

бездействие









Для проведения дальнейших экспериментов отобран список пар антонимов - наречий. Число пар антонимов-наречий составляет примерно 10% от числа всех антонимов, как для русского, так и для английского языка, что позволяет проводить их обработку за обозримое время. Для определения семантических координат наречия Осгуд [6] применил метод семантического дифференциала, в котором каждое слово (наречие) имеет координаты в трехмерном пространстве с осями плохо/хорошо, слабо/сильно, пассивно/активно. Можно предположить, что расстояние от определенного наречия W до наречия хорошо является мерой положительной оценки W. В действительности, эта мера является довольно спорной. Слова хорошо и плохо связаны цепочкой синонимов, причем существует последовательность всего из 5 слов в английском языке (negatively, hardly, tightly, thoroughly, comprehensively, soundly, positively), и из 6 слов в русском языке (плохо, дешево, легко, просто, совсем, очень, здорово, хорошо), соединяющих антонимы. Каждая пара слов в этих цепочках, по крайней мере в одном из своих значений, является синонимами. D(positively, negatively) = 5, D(плохо, хорошо) = 6. Несмотря на то, что наречие positively (хорошо) и negatively (плохо) имеют противоположное значение, длина цепочки синонимов, соединяющих их, составляет 5 и 6 слов в английском и русском языке соответственно. Частичное объяснение заключается в широком использовании двух наречий, хорошо (625 ipm), плохо (187 ipm) [14]. Благодаря односвязности максимальной компоненты графа синонимических связей наречий мы можем рассматривать не только расстояние по кратчайшему пути почти от любого наречия до "хорошо", но и расстояние по кратчайшему пути слова- антонима, "плохо". С использованием этих расстояний определена функция EVA [4] которая позволяет задавать координаты каждого русского наречия WR на оси «хорошо-плохо» и каждого английского наречия WE на оси «bad-good»:

EVA(WR)=(D(WR, плохо)-D(WR, хорошо))/D(плохо, хорошо).

EVA(WE)=(D(WE, bad)-D(WE,good))/D(bad, good).


Рис. 1 Пространство билингвы для русских и английских антонимов

На Рис. 1 слова, лежащие между антонимами плохо, хорошо и negatively, positively размещены на осях двумерного пространства билингвы [5].

Очевидно, существуют наречия, выражающие высшую степень некоторого свойства. Для слова хорошо таким наречием будет превосходно, или, с использованием лексической функции Magn() [11] можно записать: превосходно=Magn(хорошо). То же самое справедливо для английских слов good, excellent: excellent=Magn(good). Интуитивно, координаты (превосходно, excellent) должны выходить за пределы интервала [-1,1] в осях плохо-хорошо, bad-good. Для учета этого явления функция EVA заменяется функцией EVA1:

EVA1(W)=(D(W,плохо)-D(W,хорошо))*(D(W,плохо)+D(W,хорошо))/ D2(плохо,хорошо).

Функции, аналогичные EVA, EVA1, можно определить не только в оси антонимов плохо-хорошо и positively-negatively , но и в любых других осях пар антонимов, как для русского, так и для английского языка. Более того, можно вычислить координаты любого наречия в этих новых осях пар антонимов. Дальнейшее исследование предполагает уточнение и расширение двуязычного списка антонимов с использованием методов установления соответствия в пространстве билингвы.



Литература

1. Fellbaum, C. WordNet. An Electronic Lexical Database. MIT Press, Cambridge, MA.

2. Hofmann, K.; Tjong Kim Sang, E. Automatic extension of non-English wordnets, Proceedings of SIGIR’07, Amsterdam, The Netherlands.

3. Jarmasz, M; Szpakowicz, S. Roget's Thesaurus and semantic similarity. In Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-2003), pages 212-219.

4. Kamps, J., Marx, M., Robert, J., Mokken, M. Using WordNet to Measure Semantic Orientations of Adjectives // Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC'04, Vol. IV (2004), pp. 1115-1118.

5. Melamed, I. Dan. 1997. A portable algorithm for mapping bitext correspondence. // Proceedings of the 35th Annual Meeting, Association for Computational Linguistics, pages 305-312, Madrid, Spain..

6. Osgood, C.E., Succi, G.J., Tannenbaum, P.H., The Measurement of Meaning. // University of Illinois Press, Urbana IL 1957.

7. Sapir, E. Selected Writings of Edward Sapir in Language, Culture and Personality – Berkley and Los Angelos, 1958. – P. 133).

8. Азарова, И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WordNet // Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии", М., 2003, с. 43-50.

9. Гудкова, Я.А. Антонимия в первичном и вторичном поэтическом тексте. Автореферат дисс. канд. филол. н. – М., 2010.

10. Львов, М.Р. Словарь антонимов русского языка // М., "Русский язык" 1984, 381 стр.

11. И. А. Мельчук, А. К. Жолковский и др. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. — Вена: Wiener Slavistischer Almanach, 1984.

12. Новиков, Л.А. Антонимия // Большой энцикл. словарь: Языкознание. – М.: Большая рос. энцикл., 1998. – С. 35).

13. Потемкин, С.Б. Лексическая база данных с наложенной семантической метрикой // Труды II Международного конгресса "Русский язык: исторические судьбы и современность", М. 2004 г.



14. Шаров, С. Частотный словарь русского языка http://www.artint.ru/projects/frqlist.asp, 2003
Автор – Потемкин Сергей Борисович, КТН, научный сотрудник филологического факультета МГУ им. Ломоносова, Адрес: 119421 Москва Ленинский проспект д 99 кв. 79. Телефон +7(03)1550543, e-mail prolexprim@gmail.com .


©dereksiz.org 2016
әкімшілігінің қараңыз

    Басты бет