Программа дисциплины «Машинный перевод»



Дата24.07.2016
өлшемі163.45 Kb.
#219297
түріПрограмма дисциплины



Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"

Факультет филологии

Программа дисциплины «Машинный перевод»


для направления 035800.68 «Фундаментальная и прикладная лингвистика»

для магистерской программы «Компьютерная лингвистика»

Автор программы:

Иомдин Л.Л., к.ф.н., iomdin@iitp.ru, Иомдин Б.Л., к. ф. н., iomdin@ruslang.ru

Одобрена на заседании кафедры [Введите название кафедры] «___»____________ 20 г

Зав. кафедрой [Введите И.О. Фамилия]
Рекомендована секцией УМС [Введите название секции УМС] «___»____________ 20 г

Председатель [Введите И.О. Фамилия]


Утверждена УС факультета [Введите название факультета] «___»_____________20 г.

Ученый секретарь [Введите И.О. Фамилия] ________________________ [подпись]]


Москва, 201_



Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы.


1Область применения и нормативные ссылки


Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.

Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов для направления 035800.68 «Фундаментальная и прикладная лингвистика» для магистерской программы «Компьютерная лингвистика», изучающих дисциплину «Машинный перевод».



Программа разработана в соответствии с:

  • Образовательным стандартом федерального государственного автономного образовательного учреждения высшего профессионального образования национального исследовательского университета «Высшая школа экономики», в отношении которого установлена категория «национальный исследовательский университет»

  • Учебным планом университета по направлению подготовки 035800.68 «Фундаментальная и прикладная лингвистика» для подготовки магистра для магистерской программы «Компьютерная лингвистика» утвержденным в 2012г.

2Цели освоения дисциплины


Целями освоения дисциплины «Машинный перевод» являются:

  • получение представления о месте теоретической лингвистики в задачах, решаемых компьютерной лингвистикой;

  • знакомство магистрантов с важнейшими областями междисциплинарных исследований на стыке лингвистики и смежных дисциплинами, в первую очередь компьютерной науки;

  • приобретение умения обнаруживать типологические сходства и различия естественных языков, между которыми осуществляется машинный перевод, и творчески использовать эти умения;

  • освоение методологии обратной связи, т.е. развитие способности применять полученные при разработке автоматических систем результаты для извлечения новых знаний о естественном языке;

  • ознакомление с современными подходами к решению задачи машинного перевода, в том числе с правиловыми, гибридными и статистическими подходами и приемами машинного обучения.



3Компетенции обучающегося, формируемые в результате освоения дисциплины


Процесс изучения дисциплины направлен на формирование следующих компетенций:

  1. Общие научно-исследовательские и профессиональные компетенции

  • способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень;

  • способность к самостоятельному освоению новых методов исследования, к изменению научного и научно-производственного профиля своей профессиональной деятельности;

  • способность самостоятельно приобретать с помощью информационных технологий и использовать в практической деятельности новые знания и умения, в том числе в новых областях знаний, непосредственно не связанных со сферой деятельности;

  • умение анализировать, сопоставлять и критически оценивать различные лингвистические и компьютерно-лингвистические направления, теории и гипотезы;

  • способность адаптироваться к новым теориям и результатам мировой науки и расширять сферу научной деятельности, участвовать в междисциплинарных исследованиях на стыке наук;

  • способность выбирать оптимальные теоретические подходы и методы решения конкретных научных и практических задач в области теоретической и компьютерной лингвистики и новых информационных технологий.




  1. Приобретаемые знания

  • краткая история машинного перевода в СССР и России и в мире;

  • основные цели и задачи, стоящие перед системами машинного перевода;

  • основные типы системы машинного перевода;

  • основные подходы к построению систем машинного перевода, в частности, эмпирические и основанные на данных;

  • современные средства построения систем машинного перевода: системы машинного обучения, глубокий семантический анализ текстов с помощью онтологии и ризонеров, интерлингвы, параллельные и одноязычные корпусы текстов разного уровня аннотации;

  • знание современной отечественной и зарубежной литературы по проблематике машинного перевода и смежной проблематике.




  1. Приобретаемые умения




  • Применение полученные знаний с целью разработки систем машинного перевода и решения других компьютерно-лингвистических задач

  • Умение анализировать, структурировать и применять информацию о новейших российских и зарубежных исследованиях и разработках в области машинного перевода;




  1. Приобретаемые навыки




  • Работа с формальными описаниями грамматики и лексики языка;

  • Работа с правилами систем автоматической обработки текстов;

  • Работа с компьютерными словарями разного типа и назначения.

В результате освоения дисциплины студент осваивает следующие компетенции:



Компетенция

Код по ФГОС/ НИУ

Дескрипторы – основные признаки освоения (показатели достижения результата)

Формы и методы обучения, способствующие формированию и развитию компетенции

Способен предлагать концепции, модели, изобретать и апробировать способы и инструменты профессиональной деятельности.

СК-2

владеет ключевыми моделями, методами и средствами машинного перевода

практические занятия;

обзор и анализ существующих систем машинного перевода



Способен к самостоятельному освоению новых методов исследования, изменению научного и научно-производственного профиля своей деятельности

СК-3

владеет ключевыми моделями, методами и средствами машинного перевода

выполнение самостоятельных заданий

анализ полученных данных



Способен анализировать, верифицировать, оценивать полноту информации в ходе профессиональной деятельности, при необходимости восполнять и синтезировать недостающую информацию и работать в условиях неопределенности

СК-6

обладает указанными навыками в применении к реализации профессиональной деятельности в сфере разработки систем машинного перевода

практические занятия (освоение методологии и инструментария);

выполнение самостоятельных заданий




Способен вести профессиональную, в том числе научно-исследовательскую деятельность в международной среде

СК-8

знает основные российские, зарубежные и международные научно-исследовательские и разработческие коллективы, а также создаваемые ими подходы, методы и средства

чтение специальной литературы; обзор и анализ существующих разработок; практические занятия

Способен осуществлять лингвистическую обработку текстов в производственно-практических целях

ПК-17

знает международно- признанные эталоны и приемы в области представления знаний в системах машинного перевода, владеет соответствующими моделями и инструментами

чтение специальной литературы; обзор и анализ существующих разработок; практические занятия



4Место дисциплины в структуре образовательной программы


Настоящая дисциплина относится к циклу дисциплин по выбору.
Изучение данной дисциплины базируется на следующих дисциплинах:

  • Введение в лингвистику (адаптационный курс) или курс по теории языка программы подготовки бакалавра;

  • Введение в математику (адаптационный курс) или курс по дискретной математики программы подготовки бакалавра;

  • Введение в программирование (адаптационный курс) или начальный курс по программированию программы подготовки бакалавра;

  • Компьютерная лингвистика.

Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями:

  • Иметь представление о структуре естественного языка;

  • Иметь представление об основных подходах к обработке естественного языка, методах и средствах компьютерной лингвистики;

  • Владеть представлениями об основных принципах организации информационных систем;

  • Владеть базовыми представлениями в области математической логики;

  • Уметь читать научные работы и базовые технологические документы на английском языке.


5Тематический план учебной дисциплины



Название раздела

Всего часов

Аудиторные часы

Самостоя­тельная работа

Лекции

Семинары

Практические занятия

1

Лингвистическое моделирование. Действующие модели языка

12

2







10

2

Грамматика и словарь естественного языка. Краткий обзор формальных грамматик. Порождающие грамматики. Грамматики составляющих и грамматики зависимостей. Гибридные грамматики.

24

2

2




20

3

Автоматический анализ и синтез текста различного уровня. Правиловые и статистические подходы к анализу текста.

24

2

2




20

4

Языковая неоднозначность разных типов и методы ее разрешения при автоматической обработке текста.

11

1

2




8

5

Задача машинного перевода в кругу задач автоматической обработки текста на естественном языке.

14

2

2




10

6

Этапы алгоритма систем машинного перевода, основанных на правилах.

12

2

2




8

7

Лексикография в системе автоматической обработки текстов. Лексические функции

24

2

2




20

8

Статистический подход к машинному переводу.

11

1

2




8

9

Смежные задачи компьютерной лингвистики. Интеллектуальный анализ данных. Вопросно-ответные системы. Лингвистические онтологии. Современные цифровые лингвистические ресурсы.

12

2

2




8




итого

144

16

16




112



6Формы контроля знаний студентов


Тип контроля

Форма контроля

1 год

Параметры

1

2

3

4

Домашнее задание







2

4


2

6


Решение 5 задач;

Подготовка рефератов и докладов (срок сдачи – следующее семинарское занятие);

Исследование и оценка системы правилового машинного перевода


Итоговый

Экзамен












+

Устный экзамен, включающий письменную часть объемом 30 минут

6.1Критерии оценки знаний, навыков



  1. Коллоквиум, основные навыки: уметь применять полученные знания с целью разработки практически значимых решений,

  2. Домашнее задание, основные навыки: работать с грамматическими правилами, словарями, правилами трансфера, ориентироваться в задачах и методах машинного перевода

Оценки по всем формам текущего контроля выставляются по 10-балльной шкале.

Дистанционная поддержка: студентам высылаются презентации и другие информационные материалы по каждому разделу, проводится удаленное консультирование путем переписки по электронной почте.



6.2Порядок формирования оценок по дисциплине



Преподаватель оценивает работу студентов на семинарских и практических занятиях: оценивается активность студента на семинарах, правильность ответов на задаваемые вопросы. Оценки за работу на семинарских и практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-балльной шкале за работу на семинарских и практических занятиях определяется перед промежуточным или итоговым контролем - Оаудиторная.

Преподаватель оценивает самостоятельную работу студентов: оценивается правильность выполнения домашних заданий, сформулированных в форме задач, которые выдаются на семинарских занятиях, полнота освещения темы и навыки практической работы с представляемыми методами и средствами, в рамках представляемых подходов при подготовке докладов. Оценки за самостоятельную работу студента преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-балльной шкале за самостоятельную работу определяется перед итоговым контролем – Осам. работа.

Способ округления накопленной оценки текущего контроля: в пользу студента.

Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей формуле, где Оэкзамен – оценка за работу непосредственно на экзамене:


Оитоговый = k1·Оэкзамен + k2·Осам. работа + k3·Оаудиторная
При этом удельный вес форм контроля распределяется следующим образом:

k1 = 0,2

k2 = 0,4

k3 = 0,4

Способ округления накопленной оценки итогового контроля в форме экзамена: в пользу студента.



На экзамене студент может получить дополнительный вопрос (дополнительную практическую задачу), ответ на который оценивается в 1 балл.

7Содержание дисциплины



Раздел 1. Лингвистическое моделирование. Действующие модели языка. Лингвистика как наука о языке. Представление об уровнях представления языка: фонетика, морфология, синтаксис, семантика. Теория «Смысл – Текст» и возможности ее использования для построения систем автоматической обработки текста. Лингвистика и прагматика.

Раздел 2. Грамматика и словарь естественного языка. Представление об интегральном описании языка. Краткий обзор формальных грамматик. Порождающие грамматики. Грамматики составляющих и грамматики зависимостей. Гибридные грамматики.

Раздел 3. Автоматический анализ и синтез текста. Морфологический анализ текста. Синтаксический анализ текста (парсинг). Различные подходы к синтаксическому анализу: анализ «сверху вниз» и «снизу вверх». Правиловые и статистические подходы к автоматической обработке текста.

Раздел 4. Языковая неоднозначность и методы ее разрешения при автоматической обработке текста. Неоднозначность как принципиальное свойство языка. Типы неоднозначности. Интерактивное разрешение лексической и синтаксической неоднозначности. Применение онтологии и других внешних ресурсов для разрешения неоднозначности. Методы машинного обучения в применении к разрешению однозначности. Корпусные методы.

Раздел 5. Задача машинного перевода в кругу задач автоматической обработки текста на естественном языке. Краткий обзор действующих систем машинного перевода. Автоматический и автоматизированный перевод. Память переводов. Интерлингва. UNL (универсальный сетевой язык) как тип интерлингвы и его использование в задаче машинного перевода.

Раздел 6. Этапы алгоритма систем машинного перевода, основанных на правилах. Морфологический компонент системы автоматической обработки текстов. Морфологическая структура слова и предложения. Синтаксический компонент системы автоматической обработки текстов. Синтаксическая структура предложения. Алгоритм синтаксического анализа. Синтаксические отношения. Синтагмы. Правила межъязыкового перевода в узком смысле (трансфер). Система машинного перевода как механизм обратной связи и источник новых лингвистических знаний.

Раздел 7. Лексикография в системе автоматической обработки текстов. Словарь системы автоматической обработки текстов. Словарь системы машинного перевода. Структура словарной статьи. Синтаксические признаки. Семантические признаки (дескрипторы). Теория валентностей. Модель управления. Лексические функции в машинном переводе.

Раздел 8. Статистические системы машинного перевода. Модель языка. Модель перевода. N-граммы. Статистическая поддержка правилового перевода. Оценки систем машинного перевода.

Раздел 9. Смежные задачи компьютерной лингвистики. Информационный поиск. Интеллектуальный анализ данных. Вопросно-ответные системы. Лингвистические онтологии. Синонимическое перифразирование высказываний и его прикладное значение. Некоторые современные цифровые лингвистические ресурсы и их роль в задачах автоматической обработки текстов. Аннотированные корпусы текстов. Word Net, Frame Net, Treebanks (включая SynTagRus), Semantic Web.

8Образовательные технологии


Лекции в интерактивном режиме (во взаимодействии со студентами), разбор практических заданий и кейсов. Встречи с представителями российских компаний и иностранными специалистами, разрабатывающими системы машинного перевода.

9Оценочные средства для текущего контроля и аттестации студента

9.1Вопросы для оценки качества освоения дисциплины

Примерный перечень вопросов к экзамену:




  1. Что такое дерево зависимостей?

  2. Дерево составляющих и дерево зависимостей: в чем разница?

  3. Дерево составляющих и скобочная структура предложения: в чем разница?

  4. Что такое синтаксический анализ?

  5. Что такое нормализованная синтаксическая структура?

  6. Что такое расширенная синтаксическая структура?

  7. Что такое сильноуправляемые предлоги и союзы?

  8. Что такое синтаксический признак?

  9. Что такое модель управления?

  10. Каковы различия между синтаксическими и семантическими валентностями слова?

  11. Что такое лексическая функция?

  12. Что такое трансфер? Каковы этапы трансфера? Что такое треугольник Вокуа?

  13. Что такое синтаксический синтез?

  14. Что такое морфологический синтез?

9.2Примеры заданий промежуточного /итогового контроля


Билет № 1.

1. Построить МорфС предложения



Для меня загадка, как он смог получить пятерку.

2. Построить СинтС этого предложения.

3. Что такое нормализованная синтаксическая структура?

Билет № 2.

1. Построить МорфС предложения

Что за девушку видел я сегодня в твоем саду?

2. Построить СинтС этого предложения.

3. Что такое трансфер? Приведите примеры правил трансфера в машинном переводе с русского языка на английский.

Билет № 15.

1. Построить МорфС предложения

Я прежде знал его ребенком, а теперь полюбил созревшим человеком. (Тютчев)

2. Построить СинтС этого предложения.

3. Что такое проективность? Какую роль она может играть в алгоритме синтаксического анализа?

Билет № 16.

1. Построить МорфС предложения

Интересно писать просто.

2. Построить СинтС этого предложения.

3. Что такое статистический машинный перевод? Что такое модель языка и модель перевода в СМТ?

10Учебно-методическое и информационное обеспечение дисциплины

10.1Базовый учебник


Jurafsky, Daniel, and James H. Martin. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics . 2nd edition. Prentice-Hall.

10.2Основная литература


Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце Введение в информационный поиск, М. Вильямс, 2011

Апресян Ю.Д. Трехуровневая теория управления: лексикографический аспект // Апресян Ю.Д. и др. Теоретические проблемы русского синтаксиса. Взаимодействие грамматики и словаря. М., 2010.



10.3Дополнительная литература


  1. Apresjan Ju, Boguslavsky I., Iomdin L. et al. ETAP-3 Linguistic Processor: a Full-Fledged NLP Implementation of the MTT // MTT 2003, First International Conference on Meaning – Text Theory (June 16-18 2003). Paris: École Normale Supérieure, 2003. P. 279-288. Philipp Koehn. Statistical Machine Translation. Cambridge University Press. 2009. И. А. Мельчук. Язык: от смысла к тексту. Москва: Языки славянских культур, 2012. 176 с.

  2. Boguslavsky I, Iomdin L. Nivre J. Parsing the Russian Dependency Treebank. Proceedings of COLING-2008. Manchester, 2008.

  3. Jury D. Apresjan, Igor M. Boguslavsky, Leonid L. Iomdin, Leonid L. Tsinman. Lexical Funtions in Actual NLP-Applications // Selected Lexical and Grammatical Issues in the Meaning–Text Theory. In honour of Igor Mel'čuk. (Ed. by Leo Wanner). John Benjamins, Studies in Language Companion. Series 84. ISBN 978 90 272 3094 2. 2007. Р. 199-230.

  4. New Trends of Research in Ontologies and Lexical Resources: Ideas, Projects, Systems. Eds: Allessandro Oltramari, Piek Vossen, Lu Qin, Eduard Hovy. Springer, Theory and And Applications in Natural Language Processing Series. 2013.

  5. I. Boguslavsky, L. Iomdin, L.  Tsinman, V. Sizov, V.Petrochenkov. Rule-Based Dependency Parser Refined by Empirical and Corpus Statistics. Proceedings of the International Conference on Dependency Linguistics (Depling’2011). Barcelona, September 5-7, 2011, 318–327;

  6. I. Boguslavsky. Semantic Analysis based on linguistic and ontological resources. Proceedings of the 5th International Conference on Meaning-Text Theory (МТТ’2011). Barcelona, September 8 – 9, 2011, 25–36;

11Материально-техническое обеспечение дисциплины


Для проведения практических занятий требуются компьютерные классы, для проведения лекций требуется компьютер, проектор и экран.



Достарыңызбен бөлісу:




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет