333
язык, набор, который исчисляется тысячами
В широком смысле ИЯ применяется к любой модальности языка, включая речь, язык
жестов и рукописный текст, и применим ко всем средствам хранения информации, которые
включают язык, цифровой или иной формат.
Современные исследования ИЯ традиционно сосредоточены на одноязычных
документах. В одноязычном ИЯ задача состоит в том, чтобы присвоить каждому документу
уникальную языковую метку. В некоторых работах сообщается о
почти идеальной
точности ИЯ больших документов на небольшом количестве языков, что побудило
некоторых исследователей назвать это «решенной задачей». Однако для достижения такой
точности необходимо сделать упрощающие предположения, такие как упомянутая выше
одноязычность каждого документа, а также предположения о типе и количестве данных и
числе рассматриваемых языков.
Способность точно определять язык, на котором написан документ, — это передовая
технология, повышающая доступность данных и имеющая множество применений.
Например,
было установлено, что представление информации на родном языке
пользователя является решающим фактором в привлечении посетителей веб-сайта.
Технологии обработки текста, разработанные для обработки естественного языка и поиска
информации ИЯ, обычно предполагают, что язык входного текста известен, и многие
методики предполагают, что все документы написаны на одном языке. Чтобы применить
методы обработки
текста к реальным данным, используется автоматическая ИЯ, чтобы
гарантировать, что только документы на соответствующих языках подвергаются
дальнейшей обработке. При хранении и поиске информации принято индексировать
документы в многоязычной
коллекции по языку, на котором они написаны, а ИЯ
необходима для коллекций документов, языки которых неизвестны априори, например, для
данных, просканированных из World Интернет. Другим применением ИЯ,
предшествовавшим вычислительным методам, является определение языка документа для
направления его подходящему переводчику. Это приложение стало еще более заметным из-
за появления методов машинного перевода для того, чтобы МП можно было применить для
перевода документа на целевой язык, обычно необходимо определить исходный язык
документа, а это задача ИЯ. ИЯ также играет роль в обеспечении поддержки документации
и использовании языков с низким уровнем ресурсов.
Одной из областей, где ИЯ часто
используется в этом отношении, является создание лингвистических корпусов, где ИЯ
используется для обработки целевых веб-сканеров для сбора
текстовых ресурсов для
языков с низким уровнем ресурсов.
Таким образом в этой статье представлен обзор языковой идентификации. Языковая
идентификация — это богатая, сложная и многогранная проблема, которая привлекла
внимание самых разных исследовательских сообществ.
Достарыңызбен бөлісу: