№3-комиссаров indd



Pdf көрінісі
бет48/136
Дата02.04.2024
өлшемі3.33 Mb.
#497356
1   ...   44   45   46   47   48   49   50   51   ...   136
Наука и жизнь Казахстана №3 (59) 2018

Ключевые слова: машинное обучение, natural language processing, искусственный интеллект, класси-
фикация текста.
Андатпа. «Жалған жаңалықтар» проблемасы сапалы журналистика және жақсы хабардар қоғам-
дық пікірталасқа ықтимал қауіп ретінде соңғы жылдары пайда болды. Табиғи тілдің өңдеуі - ақпарат-
тық жастың маңызды технологиясының бірі. Сондай-ақ, күрделі тілдік есептілігін жасанды интеллект 
маңызды бөлігі түсіну. Барлық жерде NLP пайдаланылуыда: веб іздеу, жарнама, электрондық пошта, 
клиенттерге қызмет көрсету, тілге аударма, радиологиялық есептер және т.б. Соңғы жылдары, ма-
шина оқыту терең көзқарастар көптеген түрлі табиғи тілді өңдеу өте жоғары өнімділікті алды. Олар 
модельдер арқылы жеке тұлғаның көмегімен мәселелерді шеше алады және мамандандырылған функци-
яларды талап етпейді.
Түйінді сөздер: машина оқыту, табиғи тілдерді өңдеу, жасанды интеллект, мәтінді жіктеу.
Annotation. The problem of «fake news» arose recently as a potential threat to quality journalism and a 
well-informed public debate. The processing of natural language is one of the most important technologies of the 
information age. Understanding complex linguistic utterances is also an important part of artificial intelligence. 
NLP applications are everywhere: web search, advertising, emails, customer service, translation into language, 
radiological reports, etc. There are a lot of basic tasks and machine learning models for NLP applications. 
Recently, deep approaches to learning have received very high productivity in many different tasks of natural 
language processing. They can solve problems using separate end-to-end models and do not require a traditional, 
specialized function.
Keywords: machine learning, natural language processing, artificial intelligence, text classification.
1. Необходимость и применение NLP
В течение последних нескольких месяцев вопрос о «поддельных новостях», определяемый 
«Нью-Йорк таймс» как «составленные истории, написанные с намерением обмануть» и опубли-
кованные в форматах, подобных тем, что были в традиционных «настоящих» новостях, возник-
шей как угроза качественной журналистике и хорошо информированного публичного дискурса. 
В частности, поддельные новости обвинялись в увеличении политической поляризации и пар-
тизанского конфликта в Соединенных Штатах во время предвыборной кампании в 2016 году и в 
первые дни правления Дональда Трампа.
Предположительно, классификатор, который может решить проблему обнаружения положе-
ния с высокой точностью, может эффективно использоваться либо как инструмент для людей, 
работающих для идентификации поддельных новостей (например, получение статей, которые 
согласны, не согласны и обсуждают заголовок), либо как строительный блок для более сложной 
системы ИИ, которая попытается определить реальную правдивость новостных сообщений (на-
пример, используя достоверные источники для классификации).
За последние несколько лет многие исследовательские усилия в NLP были сосредоточены на 
применении моделей нейронных сетей с глубокими нейронными сетями для различных задач на 
основе последовательности. Частым шаблоном для таких задач является принятие двух тексто-
вых последовательностей, их кодирование в какой-то форме, а затем попытка классифицировать 


105
их отношения. В этой задаче был разделен новый состав меченых пар предложений и подходы к 
их классификации на основе семантических отношений, таких как «влечение» и «противоречие».
Другой общей задачей, основанной на последовательности в NLP, является машинный пере-
вод (MП), который, возможно, является каноническим приложением для недавней работы над 
структурами «последовательно-последовательно» (seq2seq). Эти модели кодируют одну последо-
вательность слов или токенов, а затем пытаются «декодировать» шаг за шагом соответствующую 
последовательность выходных токенов. Sustkever от Google сделал одно из первых приложений 
моделей seq2seq2 для MП всего несколько лет назад. Другие, включая Bahdanau и Luong расши-
рили работу команды Google, представив новые механизмы, такие как «внимание», что позволяет 
декодеру модели сфокусироваться на определенных участках кодированной входной последова-
тельности на каждом этапе вывода, чтобы сделать наилучшие предсказания. Поскольку рекур-
рентные нейронные сети часто являются центральным компонентом моделей NLP, основанных 
на последовательности, большинство из этих усилий также основываются на единицах «памя-
ти», таких как LSTM (длинная кратковременная память, Hochreiter и Schmidhuber, [5] ) и GRU 
(стробированная периодическая единица, Chung).
Феррейра и Влахос [5] использовали набор данных «Emergent» для сравнения слухов о пре-
тензиях к новостным статьям, которые ранее были отмечены журналистами с оценкой их прав-
дивости, с целью предсказать позицию статьи в отношении слуха. Эта команда суммировала 
каждую статью в заголовке и использовала модель логистической регрессии с функциями, пред-
ставляющими статью, и требовала классифицировать комбинацию статьи и претензии как «для», 
«против» или «наблюдения» с конечным уровнем точности 73%. 
Augenstein предпринял аналогичную задачу обнаружения положения, хотя и в другом наборе 
данных с несколько более короткими текстовыми строками. Они пытались предсказать, был ли 
твит «позитивным», «негативным» или «нейтральным» по отношению к короткой теме (напри-
мер, «Легализация абортов»), которую они обозначили как «цель». Они исследовали несколько 
моделей, в которых использовалась пара LSTM в разных устройствах. В модели, которую они 
называли «независимым кодированием», один LSTM кодировал целевую строку, а другой LSTM 
кодировал твиты, а конечные векторы скрытого состояния двух LSTM затем пропускались че-
рез один слой вперед-вперед и softmax, чтобы сделать предсказание. Окончательным вариантом 
было «двунаправленное условное кодирование», которое расширило предыдущую модель путем 
кодирования твита в обоих направлениях, а затем с использованием двух окончательных векто-
ров скрытого состояния для прогнозирования. Результаты этой группы показали, что условное 
кодирование обеспечило значимое повышение производительности по сравнению с независимой 
моделью кодирования с двунаправленным условным кодированием, обеспечивающим неболь-
шую дополнительную прибыль.
2. Задача поиска поддельной новостной статьи
Вызов Fake News был организован в начале 2017 года для поощрения разработки систем клас-
сификации на основе машинного обучения, которые выполняют «обнаружение положения» -то 
есть то, что конкретный заголовок новостей «соглашается» с «не согласен» с «обсуждает» или 
не связан с конкретной новостной статьей, чтобы позволить журналистам и другим людям легче 
находить и исследовать возможные случаи «поддельных новостей». Было разработано несколь-
ко моделей, основанных на нейронных сетях, для решения проблемы обнаружения положения, 
начиная от относительно простых сетей передачи данных, чтобы разработать повторяющиеся 
модели с вниманием и несколькими словарями.[6]
С появлением поддельных новостей, которые используются для влияния на выборы, опреде-
ление ложной информации стало важной задачей. Правительства, газеты и платформы социаль-
ных сетей прилагают все усилия, чтобы отличить достоверные новости от поддельных новостей. 
Цель работы - автоматизировать процесс выявления поддельных новостей с помощью машинно-
го обучения и обработки естественного языка. Этот процесс можно разбить на несколько этапов. 
Первым полезным шагом к идентификации поддельных новостей является понимание того, что 
другие источники новостей говорят о той же теме. Вот почему проблема фальшивых новостей 
изначально фокусируется на обнаружении положения. Обнаружение положения включает оцен-


106
ку относительных перспектив двух разных текстовых фрагментов по той же теме. В частности, 
задача состоит в том, чтобы оценить позицию заголовка новостей относительно содержания но-
востной статьи, которая может, но не должна затрагивать ту же тему. Таким образом, относи-
тельная позиция каждой пары заголовок-статья должна классифицироваться как не связанная, 
обсуждающая, соглашающая или не соглашающая. 
Открытие несогласованной пары заголовок-статья не обязательно соответствует обнаружению 
поддельной статьи 1, но это автоматический первый шаг, который мог бы сделать рецензенты для 
людей осведомленными о несоответствии. В этом случае рецензенты или специализированные 
алгоритмы могут в конечном итоге решить, какие статьи являются поддельными.
3. Методы для решения задачи поиска «положения»
В этом разделе мы описываем методы, позволяющие решить задачу поиска «положения».
3.1. Сверточные нейронные сети для n-граммов
Вдохновленные успехом базовой линии с символами n-граммов и n-граммами слов, мы также 
попытались ввести в нашу модель слово n-граммы разного размера. Мы экспериментировали с 
конкатенацией слов n-граммов поверх словных вложений, прежде чем кормить их через RNN. 
Аналогично, мы использовали сверточную нейронную сеть с различными размерами фильтра 
для генерации представлений n-грамм.
Однако n-граммы не улучшили производительность нашей модели. Опять же, результаты по-
казывают, что введение большего количества параметров, на этот раз в виде сверточных филь-
тров, может негативно повлиять на производительность нашей модели на этом наборе данных 
обнаружения положения.
3.2. Bag of Words
Некоторые из наших экспериментов были основаны на совершенно другом подходе, осно-
ванном на сумке слов (BoW). Здесь мы описываем наиболее успешную модель такого рода. Для 
представления слов мы использовали 50-мерную версию предварительно подготовленных векто-
ров GloVe [3], используемых в других наших моделях. Для каждой пары заголовок-корпус,
стоп-слова удаляются как из заголовка, так и из тела. Тело делится на предложения, а средний 
вектор слова вычисляется для каждого предложения. Соответствующий вектор вычисляется для 
заголовка. Затем мы вычисляем сходство косинусов вектора заголовка с каждым вектором пред-
ложения тела и выбираем 3 с наивысшим сходством. Эти векторы, а также вектор заголовка затем 
объединяются для создания входного вектора для нашего классификатора. По желанию мы также 
объединили глобальные функции с входным вектором. Затем входной вектор подается в нейрон-
ную сеть с одним скрытым слоем 100 единиц ReLU и слоем выхода softmax.
Модель BoW работает на удивление хорошо, учитывая ее простоту. 
3.3. Наивная базовая линия (сходство с Jaccard)
Чтобы установить простой базовый уровень производительности, мы сначала внедрили бы-
стрый счетчик сходства с Jaccard, который сравнивал заголовки с отдельными предложениями от 
их парной статьи. Найдя максимальные и средние оценки по шкале Jaccard по всем предложени-
ям в статье и выбирая соответствующие пороговые значения, мы уже смогли достичь 90% -ной 
точности по связанной / несвязанной задаче, поэтому мы надеялись на очень высокую точность 
при переходе к глубокому обучению.
3.4. Многоуровневая сеть прямой связи
Наша первая модель на основе NN использовала простые преобразования (усреднение, кон-
катенацию и т. Д.) Для предварительно обученных вложений слов для создания независимых 
наборов функций для заголовков и статей, которые затем отправлялись через многоуровневую 
сеть, чтобы получить результат предсказания. Этот метод проходил очень быстро и обеспечивал 
надежные результаты классификации с общим уровнем точности в диапазоне 90-95% в 4 классах, 
которые мы пытались предсказать. 


107
3.5. LSTM с независимой условной и двунаправленной условной кодировкой
Вдохновляя подход Аугенштейна и др. [1] мы изучили использование нескольких повторя-
ющихся сетевых уровней для кодирования заголовков и статей перед классификацией резуль-
тирующих векторов состояния с преобразованием softmax. Наша первая попытка включала от-
дельные (параллельные) кодировки LSTM заголовка и статьи и последующую классификацию с 
использованием конечных скрытых состояний каждого кодировщика для прогнозирования. (Это 
то, что Аугенштейн обозначил как «независимую кодировку»). Поскольку словарь по нашему 
набору обучения был относительно небольшим - около 3000 различных типов в заголовках и 24 
000 типов в статьях - мы использовали предварительно подготовленные векторы вставки слов 
из Стэнфорда GloVe, чтобы дать нам толчок к захвату семантики маркера. Таким образом, ввод 
каждого LSTM на каждом шаге представлял собой 50-мерное векторное представление текущего 
токена, основанное на GloVe, но также прошедшее обучение в нашей модели, чтобы поймать 
любые корректировки, которые могут быть специфическими для нашей задачи классификации.
Затем мы перешли к условному кодированию, которое включает повторяющиеся ячейки, раз-
мещенные в последовательности, а не параллельно. Сначала мы отправили текст заголовка через 
слой LSTM (назовем эту LSTMHeadline), а затем инициализировали другой слой LSTM (назови-
те эту LSTMA-страницу) конечным скрытым вектором состояния LSTMHeadline.
Затем окончательное предсказание было выполнено с использованием только конечного скры-
того состояния LSTMA-статьи, хотя, конечно, концептуальная цель заключается в том, что это 
состояние также фиксирует информацию об заголовке и его отношении к статье на основе ее 
инициализации. Наконец, мы попробовали двунаправленную условную кодировку, состоящую 
из 4 разных слоев LSTM.
LSTMHeadline-Forward подключается к LSTMA-Forward-Forward, как и в предыдущей моде-
ли, в то время как LSTMHeadline-Backward и LSTMA-Article-Backward имеют одинаковые отно-
шения, но их входы поставляются в обратном порядке. Затем конечные состояния LSTMA-Пря-
мой и LSTMA-Article-Backward затем усредняются и подаются в конечный слой предсказания 
softmax.
3.6. Последовательная повторяющаяся модель с вниманием
Все предыдущие модели были, по существу, созданы на заказ в Python и Tensorflow, хотя мы 
использовали некоторые полезные строительные блоки из библиотеки Tensorflow, такие как класс 
BasicLSTMCell.
Для нашей окончательной модели мы решили поэкспериментировать с некоторыми из более 
богатых библиотечных кодов, доступных для Tensorflow.
В частности, мы адаптировали учебное пособие по переводам нейронных машин (NMT) по-
следовательности к последовательности, чтобы создать внимательную модель seq2seq, используя 
функцию «embedding_attention_seq2seq» от Tensorflow. Эта модель позволила нам легко исполь-
зовать LSTM или GRU, а также обеспечила преимущество добавления уровня внимания поверх 
условного кодирования, которое является стандартным в моделях seq2seq. 


Достарыңызбен бөлісу:
1   ...   44   45   46   47   48   49   50   51   ...   136




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет