Слайд №3 Каково сейчас положение дел в данной области? В настоящее время имеется много систем семантического анализа текстов и различных новостных агрегаторов. Слайд №4



бет2/5
Дата06.09.2023
өлшемі27.36 Kb.
#476780
түріРассказ
1   2   3   4   5
доклад-текст

СЛАЙД №7
Документ разбивается на предложения, которые упорядочиваются по убыванию длины, выраженной количеством слов, а при равенстве длин – в алфавитном порядке. Затем выбираются и сцепляются в строку в алфавитном порядке 2 самых длинных предложения. В качестве сигнатуры вычисляется контрольная сумма CRC32 полученной строки.
СЛАЙД №8
Сначала по всей коллекции строится словарь, аналогичный использованному в алгоритме TF-IDF из которого удаляются слова с наибольшими и наименьшими значениями IDF. Затем на основе этого словаря генерируются 10 дополнительных словарей, содержащих примерно на 30% меньше слов, чем исходный. Слова удаляются случайным образом.
Для каждого документа строится 11 I-Match сигнатур. Дубликатами считаются документы хотя бы с одной совпавшей сигнатурой. Оказывается, что такой подход весьма существенно по сравнению с TF-IDF (более чем в 2 раза) повышает полноту обнаружения дубликатов при снижении относительной точности всего на 14%.
СЛАЙД №9
Метод основан на «супершинглировании» логарифмической выборки из исходного полного множества шинглов, такой, которая оставляет шинглы, делящиеся без остатка на степени небольшого числа.
Сначала вычисляется множество всех 5-словных шинглов, затем из этого множества отбираются шинглы, делящиеся на степени числа 2. Они и составляют точную сигнатуру документа.
В результате экспериментального сравнения качества работы каждого из методов было принято решение использовать алгоритм шинглов. Он основан на представлении документа в виде последовательности фиксированной длины N, состоящих из соседних слов. При этом на последовательности могут накладываться ограничения – например, слова должны находиться в одном предложении. Таким последовательности называются шинглами.
Однако, еще есть модифицированный алгоритм шинглов, в котором документ представляется 84 шинглами. Выбор из всего множества шинглов происходит по следующей схеме: для всех шинглов документа рассчитывается значение 84 хеш функций. Затем эти 84 шингла разбиваются на 6 групп по 14 шинглов. Таким группы называются «супершинглами». Далее документ представляется всевозможными попарными сочетаниями из 6 супершинглов, которые называются мегашинглами.


Достарыңызбен бөлісу:
1   2   3   4   5




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет