Кластеризация документов - Document clustering

Кластеризация документов (или кластеризация текста) является применением кластерный анализ в текстовые документы. Имеет приложения для автоматической организации документов, тема извлечение и быстрое поиск информации или фильтрация.

Обзор

Кластеризация документов включает использование дескрипторов и извлечение дескрипторов. Дескрипторы - это наборы слов, описывающие содержимое кластера. Кластеризация документов обычно считается централизованным процессом. Примеры кластеризации документов включают кластеризацию веб-документов для пользователей поиска.

Применение кластеризации документов можно разделить на два типа: онлайн и офлайн. Онлайн-приложения обычно ограничены проблемами эффективности по сравнению с офлайн-приложениями. Кластеризация текста может использоваться для различных задач, таких как группировка похожих документов (новости, твиты и т. Д.) И анализ отзывов клиентов / сотрудников, обнаружение значимых неявных тем во всех документах.

В общем, есть два общих алгоритма. Первый - это иерархический алгоритм, который включает одиночную ссылку, полную связь, среднее значение по группе и метод Уорда. Путем агрегирования или разделения документы могут быть сгруппированы в иерархическую структуру, подходящую для просмотра. Однако такой алгоритм обычно страдает проблемами эффективности. Другой алгоритм разработан с использованием Алгоритм K-средних и его варианты. Как правило, иерархические алгоритмы предоставляют более подробную информацию для детального анализа, в то время как алгоритмы, основанные на вариантах Алгоритм K-средних являются более эффективными и предоставляют достаточно информации для большинства целей.^[1]^{:Глава 14}

Эти алгоритмы могут быть далее классифицированы как алгоритмы жесткой или мягкой кластеризации. Жесткая кластеризация вычисляет жесткое назначение - каждый документ является членом ровно одного кластера. Назначение алгоритмов мягкой кластеризации является мягким - назначение документа - это распределение по всем кластерам. В мягком назначении документ имеет дробное членство в нескольких кластерах.^[1]^:499 Снижение размерности методы можно рассматривать как подтип мягкой кластеризации; для документов они включают скрытое семантическое индексирование (усеченное сингулярное разложение на гистограммах терминов)^[2] и тематические модели.

Другие алгоритмы включают кластеризацию на основе графов, онтология поддерживает кластеризацию и кластеризацию с учетом порядка.

Учитывая кластеризацию, может быть полезно автоматически получать понятные человеку метки для кластеров. Различные методы существуют для этой цели.

Кластеризация в поисковых системах

А поисковая система часто возвращает тысячи страниц в ответ на широкий запрос, что затрудняет просмотр пользователями или поиск соответствующей информации. Методы кластеризации можно использовать для автоматической группировки полученных документов в список значимых категорий.

Процедуры

На практике кластеризация документов часто включает следующие шаги:

1. Токенизация

Токенизация - это процесс разбора текстовых данных на более мелкие единицы (токены), такие как слова и фразы. Обычно используемые методы токенизации включают Модель мешка слов и N-граммовая модель.

2. Стемминг и лемматизация

Различные токены могут нести аналогичную информацию (например, токенизация и токенизация). И мы можем избежать повторного вычисления аналогичной информации, приведя все токены к их базовой форме, используя различные словари определения корней и лемматизации.

3. Удаление стоп слова и пунктуация

Некоторые токены менее важны, чем другие. Например, такие общие слова, как «the», могут быть не очень полезны для выявления основных характеристик текста. Поэтому обычно перед дальнейшим анализом рекомендуется удалить стоп-слова и знаки препинания.

4. Вычисление частотности терминов или tf-idf

После предварительной обработки текстовых данных мы можем приступить к созданию функций. Для кластеризации документов одним из наиболее распространенных способов создания функций для документа является вычисление частотности терминов всех его токенов. Эти частоты, хотя и не идеальны, обычно могут дать некоторые подсказки о теме документа. И иногда также полезно взвешивать термины частот по обратным частотам документа. Увидеть tf-idf для подробного обсуждения.

5. Кластеризация

Затем мы можем сгруппировать различные документы на основе созданных нами функций. См. Раздел алгоритмов в кластерный анализ для разных типов методов кластеризации.

6. Оценка и визуализация

Наконец, модели кластеризации можно оценить с помощью различных показателей. Иногда полезно визуализировать результаты, нанося кластеры в низко (двумерное) пространство. Увидеть многомерное масштабирование как возможный подход.

Кластеризация против классификации

Алгоритмы кластеризации в вычислительном анализе текста группируют документы в группы текста, которые называются подмножествами или кластеры где цель алгоритма - создать внутренне согласованные кластеры, отличные друг от друга.^[3] С другой стороны, классификация - это форма контролируемое обучение где особенности документов используются для прогнозирования «типа» документов.

Смотрите также

использованная литература

^ ^а ^б Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка, MIT Press. Кембридж, Массачусетс: май 1999 г.
^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf
^ «Введение в поиск информации». nlp.stanford.edu. п. 349. Получено 2016-05-03.

Список используемой литературы

Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце. Плоская кластеризация в Введение в поиск информации. Издательство Кембриджского университета. 2008 г.
Николас О. Эндрюс и Эдвард А. Фокс, Последние разработки в области кластеризации документов, 16 октября 2007 г. [1]
Клаудио Карпинето, Станислав Осинский, Джованни Романо, Давид Вайс. Обзор механизмов веб-кластеризации. ACM Computing Surveys, том 41, выпуск 3 (июль 2009 г.), статья № 17, ISSN 0360-0300
Вуи Ли Чанг, Кай Мэн Тай и Чи Пенг Лим, Новая развивающаяся древовидная модель с локальным переобучением для кластеризации и визуализации документов, Письма о нейронной обработке, DOI: 10.1007 / s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3

[manning-1] а ^б Мэннинг, Крис и Хинрих Шютце, Основы статистической обработки естественного языка, MIT Press. Кембридж, Массачусетс: май 1999 г.

[2] ttp://nlp.stanford.edu/IR-book/pdf/16flat.pdf

[3] «Введение в поиск информации». nlp.stanford.edu. п. 349. Получено 2016-05-03.

[1]

[2]

[3]