Классификация веб-запросов - Web query classification

Классификация / категоризация темы веб-запроса является проблемой в информационная наука. Задача - назначить Поисковый запрос в Интернете к одному или нескольким предопределенным категории, исходя из его тематики. Важность классификации запросов подчеркивается многими услугами, предоставляемыми поиском в Интернете. Прямое применение - предоставить лучшие страницы результатов поиска для пользователей с интересами разных категорий. Например, пользователи, отправляющие веб-запрос «яблоко»Могут ожидать увидеть веб-страницы, связанные с фруктовым яблоком, или они могут предпочесть продукты или новости, связанные с компьютерной компанией. Сервисы интернет-рекламы могут полагаться на результаты классификации запросов для более точного продвижения различных продуктов. Страницы результатов поиска могут быть сгруппированы в соответствии с категориями, предсказанными алгоритмом классификации запроса. Однако вычисление классификации запросов нетривиально. В отличие от классификация документов задачи, запросы, отправленные пользователями веб-поиска, обычно короткие и неоднозначные; также значения запросов со временем меняются. Поэтому классификация тем запроса намного сложнее, чем традиционные задачи классификации документов.

KDDCUP 2005

Конкурс KDDCUP 2005^[1] подчеркнул интерес к классификации запросов. Задача конкурса - разделить 800 000 реальных пользовательских запросов на 67 целевых категорий. Каждый запрос может принадлежать более чем к одной целевой категории. В качестве примера задачи контроля качества с учетом запроса «яблоко», Его следует разделить на ранжированные категории:«Компьютеры Аппаратное обеспечение; Живая еда и кулинария”.

Запрос	Категории
яблоко	Компьютеры Аппаратное обеспечение Живая еда и кулинария
ФИФА 2006	Спортивный футбол Расписание спортивных мероприятий и билеты Развлечения Игры и игрушки
рецепты чизкейков	Живая еда и кулинария Информационное искусство и гуманитарные науки
стихотворение о дружбе	Информационное искусство и гуманитарные науки Живые знакомства и отношения

Длина веб-запроса.gif Веб-запрос sense.gif

Сложности

Классификация тем веб-запросов заключается в автоматическом назначении запроса некоторым предопределенным категориям. В отличие от традиционных задач классификации документов, существует несколько основных трудностей, которые препятствуют развитию Интернета. понимание запроса:

Как получить соответствующее представление функции для веб-запросов?

Многие запросы короткие, а условия запроса шумные. Например, в наборе данных KDDCUP 2005 чаще всего встречаются запросы, содержащие 3 слова (22%). Кроме того, 79% запросов содержат не более 4 слов. Пользовательский запрос часто имеет несколько значений. Например, "яблоко"может означать фрукт или компьютерную компанию".Ява"может означать язык программирования или остров в Индонезии. В наборе данных KDDCUP 2005 большинство запросов содержат более одного значения. Таким образом, использование только ключевых слов запроса для настройки векторная космическая модель для классификации не подходит.

Методы, основанные на обогащении запросов^[2]^[3] начните с обогащения пользовательских запросов к коллекции текстовых документов с помощью поисковые системы. Таким образом, каждый запрос представлен псевдодокументом, который состоит из фрагментов страниц результатов с самым высоким рейтингом, полученных поисковой системой. Впоследствии текстовые документы классифицируются по целевым категориям с использованием классификатора на основе синонимов или статистических классификаторов, таких как Наивный байесовский (NB) и Машины опорных векторов (SVM).

Как адаптировать изменения запросов и категорий с течением времени?

Значение запросов также может меняться со временем. Следовательно, старые помеченные обучающие запросы могут скоро оказаться без данных и бесполезными. Как сделать классификатор адаптируемым со временем становится большой проблемой. Например, слово "Барселона"имеет новое значение нового микропроцессора AMD, в то время как это относится к городу или футбольному клубу до 2007 года. Таким образом, распределение значений этого термина является функцией времени в Интернете.

Метод на основе промежуточной таксономии^[4] сначала строит связующий классификатор на промежуточной таксономии, такой как Open Directory Project (ODP) в автономном режиме. Затем этот классификатор используется в онлайн-режиме для сопоставления пользовательских запросов с целевыми категориями через промежуточную таксономию. Преимущество этого подхода заключается в том, что классификатор моста необходимо обучать только один раз и он адаптируется для каждого нового набора целевых категорий и входящих запросов.

Как использовать журналы запросов без меток для классификации запросов?

Поскольку вручную помеченные обучающие данные для классификации запросов являются дорогостоящими, использование очень большого журнала запросов поисковой системы в качестве источника немаркированных данных для помощи в автоматической классификации запросов становится актуальной проблемой. В этих журналах записывается поведение пользователей Интернета при поиске информации через поисковую систему. За прошедшие годы журналы запросов стали богатым ресурсом, который содержит знания пользователей Интернета о World Wide Web.

Метод кластеризации запросов^[5] пытается связать связанные запросы путем кластеризации «данных сеанса», которые содержат несколько запросов и информацию о переходах от одного взаимодействия с пользователем. Они учитывают термины из результирующих документов, которые являются общими для набора запросов. Показано, что использование ключевых слов запроса вместе с данными сеанса является наиболее эффективным методом выполнения кластеризации запросов.
Метод селективных предпочтений^[6] пытается использовать некоторые правила ассоциации между условиями запроса, чтобы помочь с классификацией запроса. Учитывая обучающие данные, они используют несколько подходов к классификации, включая точное соответствие с использованием помеченных данных, соответствие N-Gram с использованием помеченных данных и классификаторы на основе восприятия. Они делают упор на подход, адаптированный из компьютерной лингвистики, который называется селекционными предпочтениями. Если x и y образуют пару (x; y) и y принадлежит категории c, то все остальные пары (x; z), возглавляемые x, принадлежат c. Они используют немаркированные данные журнала запросов для анализа этих правил и проверки эффективности своих подходов для некоторых помеченных запросов.

Приложения

Метапоисковые системы отправить запрос пользователя в несколько поисковых систем и объединить лучшие результаты каждой в один общий список. Поисковая машина может систематизировать большое количество веб-страниц в результатах поиска в соответствии с потенциальными категориями выданного запроса для удобства навигации веб-пользователей.
Вертикальный поискпо сравнению с общим поиском, он фокусируется на конкретных областях и удовлетворяет конкретные информационные потребности нишевых аудиторий и профессий. Как только поисковая машина может предсказать категорию информации, которую ищет веб-пользователь, она может автоматически выбрать определенную вертикальную поисковую машину, не заставляя пользователя явно обращаться к вертикальной поисковой машине.
Он-лайн реклама^[7]^[8] направлен на предоставление интересных рекламных объявлений пользователям Интернета во время их поисковой деятельности. Поисковая машина может предоставлять релевантную рекламу пользователям Интернета в соответствии с их интересами, так что пользователи Интернета могут сэкономить время и усилия на исследованиях, в то время как рекламодатели могут сократить свои расходы на рекламу.

Все эти службы полагаются на понимание поисковых запросов пользователей сети через их запросы.

Смотрите также

использованная литература

^ Набор данных KDDCUP 2005
^ Шен и др. «Q2C @ UST: наше лучшее решение для классификации запросов». ACM SIGKDD Exploration, декабрь 2005 г., том 7, выпуск 2.
^ Шен и др. «Обогащение запросов для классификации веб-запросов». ACM TOIS, Vol. 24, No. 3, июль 2006 г..
^ Шен и др. "Наведение мостов для классификации веб-запросов". ACM SIGIR, 2006 г..
^ Wen et al. «Кластеризация запросов с использованием журналов пользователей», ACM TOIS, том 20, выпуск 1, январь 2002 г..
^ Beitzel et al. «Автоматическая классификация веб-запросов с использованием очень больших журналов запросов без меток», ACM TOIS, том 25, выпуск 2, апрель 2007 г..
^ Сбор данных и анализ аудитории для рекламы (ADKDD'07), Мастерская KDD 2007
^ Таргетинг и рейтинг для интернет-рекламы (TROA'08), WWW семинар 2008

дальнейшее чтение

Шен. «Понимание веб-запросов на основе обучения». Кандидатская диссертация, HKUST, Июнь 2007 г.

[1] Набор данных KDDCUP 2005

[2] Шен и др. «Q2C @ UST: наше лучшее решение для классификации запросов». ACM SIGKDD Exploration, декабрь 2005 г., том 7, выпуск 2.

[3] Шен и др. «Обогащение запросов для классификации веб-запросов». ACM TOIS, Vol. 24, No. 3, июль 2006 г..

[4] Шен и др. "Наведение мостов для классификации веб-запросов". ACM SIGIR, 2006 г..

[5] Wen et al. «Кластеризация запросов с использованием журналов пользователей», ACM TOIS, том 20, выпуск 1, январь 2002 г..

[6] Beitzel et al. «Автоматическая классификация веб-запросов с использованием очень больших журналов запросов без меток», ACM TOIS, том 25, выпуск 2, апрель 2007 г..

[7] Сбор данных и анализ аудитории для рекламы (ADKDD'07), Мастерская KDD 2007

[8] Таргетинг и рейтинг для интернет-рекламы (TROA'08), WWW семинар 2008

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Интернет-поиск
Типы	Поисковая система в Интернете (Список ) Механизм метапоиска Мультимедийный поиск Совместная поисковая система Межязыковой поиск Локальный поиск Вертикальный поиск Социальный поиск Поиск изображений Аудио поиск Система поиска видео Корпоративный поиск Семантический поиск Поисковая система на естественном языке Голосовой поиск
инструменты	Маркетинг в поисковых системах Поисковая оптимизация Меры оценки Ориентированная на поиск архитектура Поиск на основе выбора Поиск документов Текстовый анализ Поисковый робот Мультипоиск Федеративный поиск Поисковый агрегатор Показатель /Веб-индексирование Сфокусированный сканер Ловушка паука Стандарт исключения роботов Распределенное сканирование в Интернете Веб-архивирование Программное обеспечение для зеркалирования веб-сайтов Поисковый запрос в Интернете Классификация веб-запросов
Протоколы и стандарты	Z39.50 Поиск / получение веб-службы Поиск / получение по URL OpenSearch Изобразительное State Transfer Шаблон синтаксического анализа веб-сайта Сервер глобальной информации
Смотрите также	Поисковый движок Поиск на рабочем столе Онлайн поиск