The use of the hypergraphs in linguistic translation g. K. Khakhalin



Дата25.07.2016
өлшемі118.5 Kb.
#220774
Использование гиперграфов в лингвистической трансляции
Г.К.Хахалин
Научно-Исследовательский Центр Электронной Вычислительной

Техники
THE USE OF THE HYPERGRAPHS IN LINGUISTIC TRANSLATION



G.K.Khakhalin

Введение

Если упрощенно представить процесс лингвистической трансляции как анализ входа и его преобразование в выход, то для прямой трансляции это означает произвести анализ ЕЯ-предложений и преобразовать их в семантические описания, которыми могут воспользоваться другие программные системы, а для обратной трансляции — выполнить разбор семантического описания и преобразовать его в ЕЯ-текст, который будет понятен пользователю.

Вход и выход лингвистического транслятора (ЛТ) имеют разные характеристики. Свойства ЕЯ, с одной стороны, и требования к семантическим описаниям, с другой стороны. Они различны по своей сути. ЕЯ обладает в большом количестве т.н. “неопределенностями”, например, избыточностью, омонимичностью, некомплетивностью, референциальностью, идеоматичностью, вариабельностью конструкций ЕЯ-предложений, всевозможными искажениями (ошибки) и т.д. Требования же к семантическому представлению ситуаций почти противоположны: описания должны обладать однозначностью, определенностью, полнотой, точностью и т.п.

Существенным при разработке ЛТ является язык представления лингвистических знаний. Проблематика искусственного интеллекта предлагает целый ряд таких языков: логические системы, формальные грамматики, система синтаксических групп, расширенные сети переходов, семантические сети, продукционные системы, фреймы, мультиагентные системы, нейронные сети и др. Некоторые из них охарактеризованы в [1].

В общем случае для представления лингвистических знаний не обязательно ограничиваться одним языком; на разных этапах трансляции могут использоваться различные языки. В данном докладе речь пойдет о гирерграфовом представлении, где гиперграфы используются для хранения синтаксической и семантической информации и для осуществления процедуры сопоставления.

1. Гиперграфы для представления лингвистических знаний.

Дадим определение гиперграфа [2]. Гиперграф H (V, ). задается множеством V, элементы которого называются вершинами, и семейством  подмножеств V, называемых ребрами гиперграфа. Гиперграф можно отобразить на плоскости, сопоставляя вершинам точки плоскости (или “кружочки”), а ребрам — связные области, охватывающие вершины, инцидентные этим ребрам. Например, гиперграф H с множеством вершин V = {v1, v2,..., v6} и семейством ребер  = {E1={v1}, E2={v1, v3}, E3={v1, v2, v3}, E4=E5={v2, v4}, E6={v3, v4, v5}, E7=} можно изобразить на плоскости, как показано на рис. 1.



Рис. 1. Общее изображение гиперграфа


Если каждое ребро гиперграфа имеет степень, равную двум, то гиперграф является просто графом. Ориентированный гиперграф с множественными ребрами (ормультигиперграф) с раскрашенными вершинами и ребрами определяется аналогично ормультиграфу с раскрашенными вершинами и ребрами. На рис. 1. множественность ребер представлена ребрами E4, E5; “петля” отображается ребром E1; v6 представляет собой изолированную вершину, а ориентированность ребра задается упорядоченностью множества вершин, инцидентных этому ребру.

Если синтаксическую модель представить иерархической структурой синтаксических понятий и набором синтаксических правил, то иерархическая структура будет отображаться одним гиперграфом, а правила — множеством гиперграфов. При этом омография и синтаксическая омонимия будет представляться иерархическим гиперграфом более “естественным” образом нежели множеством деревьев с использованием специальных механизмов для описания этих неопределенностей. На рис. 2 и 3 представлены два гиперграфа, один из которых предназначен для выделения фрагмента в вопросительном предложении, а второй — для разбивки сложного предложения на фразы. Вершины имеют раскраски, соответствующие именам синтаксических понятий, а ребра — используемым отношениям. “Внешняя кривая”, охватывающая все вершины гиперграфа, определяется как ребро с окраской типа “входит в структуру”.

Рис. 2. Рис. 3.

Рис. 2. Гиперграф для выделения фрагмента предложения:



Какова площадь равностороннего треугольника, катет которого равен 15 см, а высота 12.

Рис. 3. Гиперграф для выделения “связки” в сложноподчиненном предложении, например:



Наступила и вторая кадриль, которую я танцевал с Сонечкой.
Аналогично можно представлять описания ситуаций в семантической модели, только окраскам вершин и ребер гиперграфов будут соответствовать семантические понятия и отношения. На рис. 4. в виде гиперграфа дано семантическое описание некоторой целостной графической “сцены”, состоящей из трех объектов, один из которых находится “между” двумя остальными (что трудно представить обычным графом). Такое описание может быть результатом трансляции предложения типа: Треугольник находится между кругом и ромбом. В этом гиперграфе Объекту1 соответствует “Треугольник”, Объекту 2 и 3 — “круг” и “ромб”. Внешнее ребро имеет смысл “входит в структуру” сцены, а внутреннее ребро — “находится между”. Стрелочки на внутреннем ребре означают соответствующую его ориентированность.

Рис. 4. Пример семантического описания графической сцены.
В терминах гиперграфов можно также описывать вложенные и пересекающиеся структуры.

Исходя из мощности этого языка с помощью гиперграфов можно представлять основные декларативные компоненты лингвистической модели. Но для реализации процесса трансляциии важна задача сопоставления описаний: при разборе простых предложений, при разбивке осложненных и сложных предложений на фразы, при декомпозиции описания ситуации на подситуации, при восстановлении эллипсисов, при разрешении анафор и т.д.


2. Процедура сопоставления или изоморфизм гиперграфов.

В отличие от порождающих механизмов при использовании описаний типа гиперграфов необходим формальный аппарат нахождения соответствий между гиперграфами, выделения подгиперграфов и т.п. Основой этого аппарата является процедура сопоставления, которую можно рассматривать как поиск изоморфизма гиперграфов.



2.1. Изоморфизм графов.

Изоморфизм для простоты изложения рассмотрим применительно к графам [3]. Пусть заданы два графа G1(Y) и G2(Z), где Y (соответственно Z) - множество вершин первого (второго) графа. Положим |Y| = n, |Z| = m, где |T| - количество элементов в множестве T. Предположим, что графы неориентированные с раскрашенными вершинами и ребрами. Цвет вершины yi из графа G1 обозначим V(yi) (i = 1,...,n), аналогично для графа G2 обозначим V(zj) (j = 1,...,m). Окраску ребра, соединяющего yi и yj, обозначим r(yi,yj), соответственно r(zl,zm).

Задача поиска изоморфизма сводится к следующему: найти множество вершин Y1 и Z1 такое, что:

|Y1| = |Z1|,

Y1  Y и Z1  Z,

G1(Y)  G2(Z).

Здесь G1(Y)  G2(Z) означает, что эти подграфы изоморфны с учетом окраски вершин и ребер, причем порядок вершин во множествах Y1 и Z1 определяет этот изоморфизм.

Например, на рис. 5 изображены два графа. Около каждой вершины в кружочке стоит цвет этой вершины. Около ребра в скобках - цвет этого ребра.


Рис. 5. Два графа с окрашенными вершинами и ребрами

Задача отыскания изоморфизмов имеет обычно множество решений. Например:

Решение 1: Y1 = {y1, y2}, Z1 = {z3, z4}. Решение 2: Y1 = { y1, y2, y3}, Z1 = {z3, z1, z2}.

Изоморфизм |Y1| = |Z1| = t  min {|Y1| = |Z1|} называется t-изоморфизмом. Задача нахождения максимального изоморфизма (с максимальным t) является конечной задачей и поэтому, естественно, может быть решена методом полного перебора; однако можно найти изоморфизм графов через поиск внутренне устойчивого множества графа, построенного по определенным правилам из исходных графов.



2.2. Определение изоморфизма по внутренне устойчивому множеству.

Пусть дан граф G(P,M), где P - множество вершин этого графа, а M - матрица смежности. Подмножество вершин этого графа называется внутренне устойчивым, если эти вершины являются попарно несмежными [4].

Задача определения изоморфизма графов сводится к задаче отыскания внутренне устойчивого множества (ВУМ) некоторого другого графа. Для заданных графов G1(Y) и G2(Z) граф G (P, M) составляется по следующим правилам:

1) P={yi zj / yi  Y, zj  Z, V(yi ) = V(zj )}.

2) Вершины (yi, zj ) и (yk,zl) в графе смежны, если отображения yi zj и yk  zl противоречат друг другу, т.е. если:

а) i=k или

б) j=l или

в) r (yi, yk)  r (zj, zl).

Графы G1(Y) и G2(Z) t-изоморфны тогда и только тогда, когда в графе G (P, M) существует t несмежных между собой вершин, причем, если вершины (yi1, zj1), (yi2, zj2),..., (yit, zjt) несмежные, то можно положить Y1 = {yi1,..., yit} и Z1 = { zj1,..., zjt}.

Так, для графов, изображенных на рис. 5.,

P={p1 = (y1, z1), p2 = (y1, z3), p3 = (y1, z4), p4 = (y2, z1), p5 = (y2, z3), p6 = (y2, z4), p7 =(y3, z2)}.

Граф G (P, M) для этого случая изображен на рис. 6.



Рис. 6. Граф для отыскания внутренне устойчивого множества


Внутренне устойчивыми множествами графа G (P, M) например, будут: {p2, p6} или {p2, p4, p7}.

Первое решение - это 2-изоморфизм, определенный отображениями y1 z3 и y2  z4. Второе решение определяют отображения y1 z3, y2  z1, y3 z2, что дает 3-изоморфизм.

Задача определения ВУМ имеет ряд приближенных, но эффективных алгоритмов. Например, простейший из них заключается в следующем. Выбираем в графе G (P, M) вершину с минимальной степенью связности и заносим ее в ВУМ. Вычеркиваем из графа G (P, M) данную вершину и все с ней смежные. В полученном графе опять определяем вершину с минимальной степенью связности и так до тех пор, пока не исчерпаем граф. Полученное ВУМ будет определять соответствующий изоморфизм.

3. Общая характеристика гиперграфового представления.

Не трудно заметить, что гиперграфовое представление имеет аналогии с семантическими сетями и с фреймами, но фреймы, как психологическая модель памяти, формально мало обоснованы, а семантические сети до сих пор не имеют стандартного определения, хотя и возникли из формального понятия сети, которое по определению связано с гиперграфом. Гиперграф же имеет четкое формальное определение и теоретически обоснованную процедуру сопоставления (поиска изоморфизма). Если “умело” пользоваться, то ее можно применять в достаточно широких пределах. Сопоставление дает спектр результатов в зависимости от структур гиперграфов, степени вершин и ребер, их окраски и порядка выбора вершин с одинаковой степенью связности в графе с ВУМ при поиске конкретного изоморфизма. То есть такая процедура дает возможность варьировать параметрами при сопоставлении и получать разные результаты исходя из внешних критериев.

Ресурсоемкость сопоставления сегодня не является критическим параметром и тем не менее опыт представления лингвистических знаний показывает, что за счет разного рода “естественных декомпозиций” (а сам процесс синтаксического или семантического разбора является таковым) всегда есть возможность использовать сравнительно небольшое количество элементов в гиперграфах и тогда (без нарушения общности) сопоставление будет эффективным.

Конечно, одного языка представления знаний в виде гиперграфов недостаточно для полного решения задачи лингвистической трансляции. Необходимо привлекать и другие типы языков, например, продукционные системы для задачи интерпретации синтаксиса в семантику. При этом есть возможность адекватной “привязки” множества гиперграфов к продукционной системе.

Описание синтаксиса и семантики на одном языке представления дает большие преимущества в реализации однотипных процедур при синтаксической и семантической обработке. А естественность описания правил позволяет вводить семантические характеристики и отношения даже и на уровне синтаксиса.

Аппарат гиперграфов позволяет описывать абзацы и даже полные тексты, не прибегая к использованию “гипертекстовых” технологий. Его можно применять для “метаописания” при определении понятий и отношений самой лингвистической модели и этапов трансляции. Гиперграфы не запрещают встраивания специальных механизмов, например, ассоциированных (присоединенных) процедур. Более того, любые синтаксические или семантические отношения проверяются с помощью этих процедур.

Восстановление эллипсисов, разрешение анафор и другие подобные задачи лингвистической трансляции решаются за счет выделения требуемого контекста (следовательно, соответствующего гиперграфа) и поиска аналогичного ему в предыдущей или последующей (см., например, относительно “прерванных” высказываний в [5]) части текста.

Заключение

Первоначально гиперграфы и процедуры их сопоставления использовались при решении задач распознавания образов и формирования понятий [6, 7]. В последующем это представление было реализовано в лингвистическом трансляторе, который работал в нескольких экспериментальных системах: в системе доступа к базам данных на ЕЯ, в оболочке машинного переводчика, в системе поиска информации в непрепарированных ЕЯ-текстах по определенным пользователем семантическим описаниям, в системе индексирования ЕЯ-текстов на примере медицинских диагнозов и в системе синтеза графических изображений типа “ТЕКСТ->РИСУНОК. Краткое описания систем и примеры обрабатываемых транслятором различных типов ЕЯ-предложений приведены в [8].


Литература

1. Нариньяни А.С. Искусственный интеллект: стагнация или новая перспектива? Труды VI национальной конференции по Искусственному Интеллекту с международным участием - КИИ-98, 5-11 октября. Пущино, Россия, т.1, 1998, с. 15-29.

2. Berge C. Isomorphism problems for hypergraphs. Lecture Notes in Mahtematics. 411. Hypergraph Seminar. 1972. Spring-Verlag, 1974, p. 1-12.

3. Зыков А.А. Основы теории графов. М., Наука, 1987, 384 с.

4. Берж К. Теория графов и ее приложение, М., Изд. ИЛ, 1962, 320 с.

5. Леонтьева Н.Н. Семантический анализ прерванных высказываний на материале массива официальных документов. Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям (под ред. А.С. Нариньяни). - М., 1997, с. 175-180.

6. Власов А.В., Гинзбург Б.Д., Хахалин Г.К. Процедура построения графа с “внутренне устойчивым множеством” применительно к процессу построения понятия. Вопросы радиоэлектроники. Сер. Общетехническая, вып. 8, 1975, с. 56-61.

7. Байков А.М., Гриднев А.А., Хахалин Г.К. Алгоритм идентификации описаний и его реализация на ЭВМ. - "Вопросы радиоэлектроники", сер. ЭВТ, 1978, вып. 5, с. 54-62.



8. Хахалин Г.К. Лингвистический транслятор в семействе систем с обработкой ЕЯ-текстов (ретроспекция). Труды VI национальной конференции по Искусственному Интеллекту с международным участием - КИИ-98, 5-11 октября. Пущино, Россия, т.1, 1998, с. 238 - 246.
Работа опубликована в Трудах Международного семинара "Диалог'99" по компьютерной лингвистике и ее приложениям, М., 1999, с. 315-320.

Достарыңызбен бөлісу:




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет