Концепция майнинга - Concept mining
Концепция майнинга это деятельность, которая приводит к извлечению концепции из артефакты. Решения задачи обычно включают аспекты искусственный интеллект и статистика, Такие как сбор данных и интеллектуальный анализ текста.[1] Поскольку артефакты обычно представляют собой слабо структурированную последовательность слов и других символов (а не понятий), проблема заключается в нетривиальный, но он может дать глубокое понимание значения, происхождения и сходства документов.
Методы
Традиционно преобразование слов в понятия выполнялось с использованием тезаурус,[2] и для вычислительной техники наблюдается тенденция делать то же самое. Используемые тезаурусы либо специально созданы для данной задачи, либо уже существующая языковая модель, обычно связанная с принстонскими WordNet.
Отображение слов в понятия[3] часто двусмысленный. Обычно каждое слово в данном языке относится к нескольким возможным концепциям. Люди используют контекст для устранения неоднозначности различных значений данного фрагмента текста, если это возможно. машинный перевод системы не могут легко вывести контекст.
Однако для целей исследования концепций эти неоднозначности имеют тенденцию быть менее важными, чем при машинном переводе, поскольку в больших документах неоднозначности имеют тенденцию выравниваться, как и в случае с интеллектуальным анализом текста.
Есть много техник для устранение неоднозначности что можно использовать. Примерами являются лингвистический анализ текста и использование информации о частоте ассоциации слов и понятий, которая может быть выведена из больших корпусов текста. В последнее время методы, основанные на семантическое сходство между возможными концепциями и контекстом появились и вызвали интерес в научном сообществе.
Приложения
Обнаружение и индексирование похожих документов в больших корпусах
Одним из побочных эффектов вычисления статистики документа в области понятий, а не в области слов, является то, что концепции формируют естественные древовидные структуры на основе гипернимия и меронимия. Эти структуры можно использовать для генерации простой статистики членства в дереве, которую можно использовать для поиска любого документа в Евклидово концептуальное пространство. Если размер документа также рассматривается как другое измерение этого пространства, тогда может быть создана чрезвычайно эффективная система индексирования. Этот метод в настоящее время используется в коммерческих целях для поиска аналогичных юридических документов в корпусе из 2,5 миллионов документов.
Кластеризация документов по темам
Стандартные методы числовой кластеризации могут использоваться в «пространстве концепций», как описано выше, для поиска и индексации документов по предполагаемой теме. Они численно намного более эффективны, чем их интеллектуальный анализ текста двоюродных братьев и сестер, и, как правило, ведут себя более интуитивно, поскольку они лучше соответствуют мерам сходства, которые может произвести человек.
Смотрите также
Рекомендации
- ^ Юэнь-Сянь Цзэн, Чун-Йен Чанг, Шу-Ну Чанг Рундгрен и Карл-Йохан Рундгрен », Разработка концептуальных карт на основе новостных статей для измерения гражданской научной грамотности в СМИ "Компьютеры и образование, Том 55, № 1, август 2010 г., стр. 165-177.
- ^ Юэнь-Сянь Цзэн " Автоматическое создание тезауруса для китайских документов ", Журнал Американского общества информационных наук и технологий, том 53, № 13, ноябрь 2002 г., стр. 1130-1138.
- ^ Юэнь-Сянь Цзэн " Обозначение общего заголовка для кластеризованных документов ", Экспертные системы с приложениями, Том 37, № 3, 15 марта 2010 г., стр. 2247-2254.