СЛАЙД №1
Здравствуйте, сегодня я буду рассказывать свой доклад, который построен на основе статьи из выпуска №4 2015 года журнала «Искусственный интеллект и принятие решений», авторами, которой являются Алла Викторовна Заболеева-Зотова доктор технических наук ВолгГТУ, Орлова Юлия Александровна доктор технических наук ВолгГТУ и Розалиев Владимир Леонидович кандидат технический наук ВолгГТУ.
СЛАЙД №2
В последнее время в России все большее внимание уделяется лицам с ограниченными возможностями здоровья. Одним из видов таких ограничений является нарушение зрения. С целью создания необходимых условий для их жизнедеятельности и обучения разрабатываются специальные меры, основанные на различных подходах. Поэтому целью данного доклада является проанализировать различные подходы к адаптации текстовой информации для людей с ограниченными возможностями здоровья по зрению, которые могут быть применены для автоматизации сбора и визуализации новостной информации.
СЛАЙД №3
Каково сейчас положение дел в данной области?
В настоящее время имеется много систем семантического анализа текстов и различных новостных агрегаторов.
СЛАЙД №4
Будем следовать такому плану в ходе доклада.
СЛАЙД №5
На самом деле существует огромное множество методов установления тематической близости документов. Однако, самыми основными и работоспособными из них являются TF-IDF, Long Sent, Lex Rand, Shingles. Рассмотрим каждый из этих алгоритмов по отдельности.
СЛАЙД №6
По всей коллекции строится словарь, ставящий каждому слову в соответствие число документов, в которых оно встречается хотя бы один раз (df) и определяется средняя длина документа (dl_avg). Затем строится частотный словарь документа и для каждого слова вычисляется его вес по формуле, представленной на слайде.
Затем выбираются и сцепляются в алфавитном порядке в строку 6 слов с наибольшими значениями wt. В качестве сигнатуры документа вычисляется контрольная сумма CRC32 полученной строки.
Достарыңызбен бөлісу: |