W-черепица - W-shingling
В обработка естественного языка а шинглинг это набор уникальный опоясывающий лишай (следовательно н-граммы ) каждый из которых состоит из смежных подпоследовательности из жетоны в пределах документ, который затем может быть использован для определения сходство между документами. Символ ш обозначает количество жетонов в каждой выбранной или решенной черепице.
Таким образом, документ «роза - это роза - это роза» может быть максимально токенизированный следующее:
- (а, роза, есть, а, роза, есть, а, роза)
В набор всех смежных последовательности из 4 токенов (Таким образом, 4 =п, таким образом, 4-граммы) является
- {(а, роза, есть, а), (роза, есть, а, роза), (есть, а, роза, есть), (а, роза, есть, а), (роза, есть, а, роза) } Которая затем может быть уменьшена или максимально покрыта черепицей в данном конкретном случае до {(a, rose, is, a), (rose, is, a, rose), (is, a, rose, is)}.
Сходство
Для данного размера черепицы степень, в которой два документа А и B похожи друг на друга можно выразить как отношение величин их черепицы ' пересечение и союз, или же
где | A | - размер набора A. Сходство - это число в диапазоне [0,1], где 1 указывает, что два документа идентичны. Это определение идентично Коэффициент Жаккара описание сходства и разнообразия наборов выборок.
Смотрите также
- Концепция майнинга (альтернативный метод расчета сходства документов с большей вычислительной сложностью, но в котором мера более точно моделирует восприятие сходства документов человеком)
- N-грамм
- к-мер
- MinHash
- Прокручивающийся хеш
- Отпечаток пальца рабина
- Векторная модель пространства
- Модель мешка слов
Рекомендации
- (Манбер 1993) Поиск похожих файлов в большой файловой системе. Еще не употребляет термин «черепица».
- (Бродер, Глассман, Манассе и Цвейг, 1997 г.) Синтаксическая кластеризация Интернета. Техническая нота SRC № 1997-015.
внешняя ссылка
- Мэннинг, Кристофер Д.; Рагхаван, Прабхакар; Шютце, Хинрих (7 июля 2008 г.). "шинглинг". Введение в поиск информации. Издательство Кембриджского университета. ISBN 978-1-139-47210-4.