СЛАЙД №10 – №11
В результате экспериментального сравнения авторами качества работы каждого из методов, было принято решение дополнить алгоритм шинглов собственным алгоритмом выделения ключевых сущностей и наиболее важных предложений.
Рассмотрим алгоритм, представленный авторами статьи
Канонизация текста. Существительные приводятся к именительному падежу и единственному числу.
Далее находим кандидатов в ключевые слова. Кандидатами являются существительные в именительном падеже и уникальные слова (персоны, организации, места). Также в кандидаты добавляются слова, которые не удалось определить при помощи предварительного морфологического анализа
Затем вычисляется «вес» для каждого кандидата. Формулы представлены на следующем слайде. tf – частота слова в статье, ni – число вхождений слова в статью и сумма по nk – число слов в статье. D – число статей df – число статей, содержащих данное слово. После вычисления, авторами экспериментально было получено, что в ключевые слова добавляются те кандидаты, которые превышают значение равное 0,8 x максимальный вес кандидата.
Учитывая структуру новостного текста, вычисляется вес предложения.
k = 1 для первого предложения в абзаце, для остальных 0.8. Аналогично пункту 3 в ключевые предложения добавляются те кандидаты, которые превышают значение равное 0.8 x максимальный вес кандидата. Стоит отметить, что авторы планируют в дальнейшем добавить еще один коэффициент, который учитывает время появления статьи, для корректировки полноты и точности передаваемой информации.
В выбранных предложениях выделяются шинглы длиной 10 слов. Выбор происходит внахлест на одно слово. Таким образом, получается набор шинглов, мощность которого равна количеству слов, минус длина шингла, плюс один.
Сравниваемые тексты представляются в виде набора шинглов и вычисленных по ним контрольных сумм, рассчитанных через хеш-функцию (CRC32). Далее находим совпадающие контрольные суммы и включаем тексты в тематическую рубрику.
Достарыңызбен бөлісу: |