Классификация веб-запросов - Web query classification

Классификация / категоризация темы веб-запроса является проблемой в информационная наука. Задача - назначить Поисковый запрос в Интернете к одному или нескольким предопределенным категории, исходя из его тематики. Важность классификации запросов подчеркивается многими услугами, предоставляемыми поиском в Интернете. Прямое применение - предоставить лучшие страницы результатов поиска для пользователей с интересами разных категорий. Например, пользователи, отправляющие веб-запрос «яблоко»Могут ожидать увидеть веб-страницы, связанные с фруктовым яблоком, или они могут предпочесть продукты или новости, связанные с компьютерной компанией. Сервисы интернет-рекламы могут полагаться на результаты классификации запросов для более точного продвижения различных продуктов. Страницы результатов поиска могут быть сгруппированы в соответствии с категориями, предсказанными алгоритмом классификации запроса. Однако вычисление классификации запросов нетривиально. В отличие от классификация документов задачи, запросы, отправленные пользователями веб-поиска, обычно короткие и неоднозначные; также значения запросов со временем меняются. Поэтому классификация тем запроса намного сложнее, чем традиционные задачи классификации документов.

KDDCUP 2005

Конкурс KDDCUP 2005[1] подчеркнул интерес к классификации запросов. Задача конкурса - разделить 800 000 реальных пользовательских запросов на 67 целевых категорий. Каждый запрос может принадлежать более чем к одной целевой категории. В качестве примера задачи контроля качества с учетом запроса «яблоко», Его следует разделить на ранжированные категории:«Компьютеры Аппаратное обеспечение; Живая еда и кулинария”.

ЗапросКатегории
яблокоКомпьютеры Аппаратное обеспечение
Живая еда и кулинария
ФИФА 2006Спортивный футбол
Расписание спортивных мероприятий и билеты
Развлечения Игры и игрушки
рецепты чизкейковЖивая еда и кулинария
Информационное искусство и гуманитарные науки
стихотворение о дружбеИнформационное искусство и гуманитарные науки
Живые знакомства и отношения

Длина веб-запроса.gifВеб-запрос sense.gif

Сложности

Классификация тем веб-запросов заключается в автоматическом назначении запроса некоторым предопределенным категориям. В отличие от традиционных задач классификации документов, существует несколько основных трудностей, которые препятствуют развитию Интернета. понимание запроса:

Как получить соответствующее представление функции для веб-запросов?

Многие запросы короткие, а условия запроса шумные. Например, в наборе данных KDDCUP 2005 чаще всего встречаются запросы, содержащие 3 слова (22%). Кроме того, 79% запросов содержат не более 4 слов. Пользовательский запрос часто имеет несколько значений. Например, "яблоко"может означать фрукт или компьютерную компанию".Ява"может означать язык программирования или остров в Индонезии. В наборе данных KDDCUP 2005 большинство запросов содержат более одного значения. Таким образом, использование только ключевых слов запроса для настройки векторная космическая модель для классификации не подходит.

  • Методы, основанные на обогащении запросов[2][3] начните с обогащения пользовательских запросов к коллекции текстовых документов с помощью поисковые системы. Таким образом, каждый запрос представлен псевдодокументом, который состоит из фрагментов страниц результатов с самым высоким рейтингом, полученных поисковой системой. Впоследствии текстовые документы классифицируются по целевым категориям с использованием классификатора на основе синонимов или статистических классификаторов, таких как Наивный байесовский (NB) и Машины опорных векторов (SVM).

Как адаптировать изменения запросов и категорий с течением времени?

Значение запросов также может меняться со временем. Следовательно, старые помеченные обучающие запросы могут скоро оказаться без данных и бесполезными. Как сделать классификатор адаптируемым со временем становится большой проблемой. Например, слово "Барселона"имеет новое значение нового микропроцессора AMD, в то время как это относится к городу или футбольному клубу до 2007 года. Таким образом, распределение значений этого термина является функцией времени в Интернете.

  • Метод на основе промежуточной таксономии[4] сначала строит связующий классификатор на промежуточной таксономии, такой как Open Directory Project (ODP) в автономном режиме. Затем этот классификатор используется в онлайн-режиме для сопоставления пользовательских запросов с целевыми категориями через промежуточную таксономию. Преимущество этого подхода заключается в том, что классификатор моста необходимо обучать только один раз и он адаптируется для каждого нового набора целевых категорий и входящих запросов.

Как использовать журналы запросов без меток для классификации запросов?

Поскольку вручную помеченные обучающие данные для классификации запросов являются дорогостоящими, использование очень большого журнала запросов поисковой системы в качестве источника немаркированных данных для помощи в автоматической классификации запросов становится актуальной проблемой. В этих журналах записывается поведение пользователей Интернета при поиске информации через поисковую систему. За прошедшие годы журналы запросов стали богатым ресурсом, который содержит знания пользователей Интернета о World Wide Web.

  • Метод кластеризации запросов[5] пытается связать связанные запросы путем кластеризации «данных сеанса», которые содержат несколько запросов и информацию о переходах от одного взаимодействия с пользователем. Они учитывают термины из результирующих документов, которые являются общими для набора запросов. Показано, что использование ключевых слов запроса вместе с данными сеанса является наиболее эффективным методом выполнения кластеризации запросов.
  • Метод селективных предпочтений[6] пытается использовать некоторые правила ассоциации между условиями запроса, чтобы помочь с классификацией запроса. Учитывая обучающие данные, они используют несколько подходов к классификации, включая точное соответствие с использованием помеченных данных, соответствие N-Gram с использованием помеченных данных и классификаторы на основе восприятия. Они делают упор на подход, адаптированный из компьютерной лингвистики, который называется селекционными предпочтениями. Если x и y образуют пару (x; y) и y принадлежит категории c, то все остальные пары (x; z), возглавляемые x, принадлежат c. Они используют немаркированные данные журнала запросов для анализа этих правил и проверки эффективности своих подходов для некоторых помеченных запросов.

Приложения

  • Метапоисковые системы отправить запрос пользователя в несколько поисковых систем и объединить лучшие результаты каждой в один общий список. Поисковая машина может систематизировать большое количество веб-страниц в результатах поиска в соответствии с потенциальными категориями выданного запроса для удобства навигации веб-пользователей.
  • Вертикальный поискпо сравнению с общим поиском, он фокусируется на конкретных областях и удовлетворяет конкретные информационные потребности нишевых аудиторий и профессий. Как только поисковая машина может предсказать категорию информации, которую ищет веб-пользователь, она может автоматически выбрать определенную вертикальную поисковую машину, не заставляя пользователя явно обращаться к вертикальной поисковой машине.
  • Он-лайн реклама[7][8] направлен на предоставление интересных рекламных объявлений пользователям Интернета во время их поисковой деятельности. Поисковая машина может предоставлять релевантную рекламу пользователям Интернета в соответствии с их интересами, так что пользователи Интернета могут сэкономить время и усилия на исследованиях, в то время как рекламодатели могут сократить свои расходы на рекламу.

Все эти службы полагаются на понимание поисковых запросов пользователей сети через их запросы.

Смотрите также

использованная литература

дальнейшее чтение