Министерство высшего и среднего специального образования республики



Pdf көрінісі
бет166/255
Дата10.10.2022
өлшемі7.64 Mb.
#462281
түріСборник
1   ...   162   163   164   165   166   167   168   169   ...   255
Русский и литература в поликультурном мире последний

CПИСОК ЛИТЕРАТУРЫ: 
1. Рыцарева А.Э. Прагмалингвистический аспект интернациональной лексики: 
Автореф. дис. ... канд. филол. наук. Волгоград, 2002. 18 с 
2. Дэвид Кристал. Глобальное понимание для глобального Английский // Вестник 
Моск. ун-та. сер. 19, Лингвистика и межкультурная коммуникация. 2001. № 4. С. 9–
29 
 
 
Филиппова Людмила Александровна 
магистратнка 1 курса направления Лингвистика: русский язык 
Ферганский государственный университет 
Мухиддинов А.Г. 
доктор филологических наук, профессор 
Ферганский государственный университет 
 
НАУЧНАЯ ИДЕНТИФИКАЦИЯ ЯЗЫКА 
Аннотация. Идентификация языка (ИЯ) — это проблема определения 
естественного языка, на котором написан документ или его часть. Автоматическая ИЯ 
активно исследуется уже более пятидесяти лет. Сегодня ИЯ является ключевой частью 
многих конвейеров обработки текста, поскольку методы обработки текста обычно 
предполагают, что язык входного текста известен. Исследования в этой области в последнее 
время особенно активны. В этой статье представлена краткая история исследований ИЯ. 
Ключевые слова: текст, язык, идентификация языка, технология языковой 
идентификации.
Идентификация языка — это задача определения естественного языка, на котором 
написан документ или его часть. Распознавание текста на конкретном языке естественно 
для человека, знакомого с этим языком. Так, представляем выдержки из статей Википедии 
на разных языках по теме обработки естественного языка. 
Английский. Обработка естественного языка — это область информатики, 
искусственного интеллекта и лингвистики, занимающаяся взаимодействием между 
компьютерами и человеческими (естественными) языками. 
Итальянский. Обработка естественного языка — это процесс автоматической 
обработки с помощью электронного компьютера информации, записанной или 
произнесенной на человеческом или естественном языке. 
Исследования ИЯ направлены на то, чтобы имитировать эту человеческую 
способность распознавать определенные языки. За прошедшие годы был разработан ряд 
вычислительных подходов, которые благодаря использованию специально разработанных 
алгоритмов и структур индексации способны делать выводы об используемом языке без 
необходимости вмешательства человека. Возможности таких систем можно 
охарактеризовать как сверхчеловеческие: обычный человек может идентифицировать 
несколько языков, а обученный лингвист или переводчик может быть знаком со многими 
десятками, но большинству из нас в какой-то момент приходилось сталкиваться с 
письменными текстами на языках, которые они не могут установить. Однако исследования 
ИЯ направлены на разработку систем, способных идентифицировать любой человеческий 


333 
язык, набор, который исчисляется тысячами 
В широком смысле ИЯ применяется к любой модальности языка, включая речь, язык 
жестов и рукописный текст, и применим ко всем средствам хранения информации, которые 
включают язык, цифровой или иной формат. 
Современные исследования ИЯ традиционно сосредоточены на одноязычных 
документах. В одноязычном ИЯ задача состоит в том, чтобы присвоить каждому документу 
уникальную языковую метку. В некоторых работах сообщается о почти идеальной 
точности ИЯ больших документов на небольшом количестве языков, что побудило 
некоторых исследователей назвать это «решенной задачей». Однако для достижения такой 
точности необходимо сделать упрощающие предположения, такие как упомянутая выше 
одноязычность каждого документа, а также предположения о типе и количестве данных и 
числе рассматриваемых языков. 
Способность точно определять язык, на котором написан документ, — это передовая 
технология, повышающая доступность данных и имеющая множество применений. 
Например, было установлено, что представление информации на родном языке 
пользователя является решающим фактором в привлечении посетителей веб-сайта. 
Технологии обработки текста, разработанные для обработки естественного языка и поиска 
информации ИЯ, обычно предполагают, что язык входного текста известен, и многие 
методики предполагают, что все документы написаны на одном языке. Чтобы применить 
методы обработки текста к реальным данным, используется автоматическая ИЯ, чтобы 
гарантировать, что только документы на соответствующих языках подвергаются 
дальнейшей обработке. При хранении и поиске информации принято индексировать 
документы в многоязычной коллекции по языку, на котором они написаны, а ИЯ 
необходима для коллекций документов, языки которых неизвестны априори, например, для 
данных, просканированных из World Интернет. Другим применением ИЯ, 
предшествовавшим вычислительным методам, является определение языка документа для 
направления его подходящему переводчику. Это приложение стало еще более заметным из-
за появления методов машинного перевода для того, чтобы МП можно было применить для 
перевода документа на целевой язык, обычно необходимо определить исходный язык 
документа, а это задача ИЯ. ИЯ также играет роль в обеспечении поддержки документации 
и использовании языков с низким уровнем ресурсов. Одной из областей, где ИЯ часто 
используется в этом отношении, является создание лингвистических корпусов, где ИЯ 
используется для обработки целевых веб-сканеров для сбора текстовых ресурсов для 
языков с низким уровнем ресурсов. 
Таким образом в этой статье представлен обзор языковой идентификации. Языковая 
идентификация — это богатая, сложная и многогранная проблема, которая привлекла 
внимание самых разных исследовательских сообществ. 


Достарыңызбен бөлісу:
1   ...   162   163   164   165   166   167   168   169   ...   255




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет