Классификация веб-запросов - Web query classification
Эта статья может требовать уборка встретиться с Википедией стандарты качества.Март 2011 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Классификация / категоризация темы веб-запроса является проблемой в информационная наука. Задача - назначить Поисковый запрос в Интернете к одному или нескольким предопределенным категории, исходя из его тематики. Важность классификации запросов подчеркивается многими услугами, предоставляемыми поиском в Интернете. Прямое применение - предоставить лучшие страницы результатов поиска для пользователей с интересами разных категорий. Например, пользователи, отправляющие веб-запрос «яблоко»Могут ожидать увидеть веб-страницы, связанные с фруктовым яблоком, или они могут предпочесть продукты или новости, связанные с компьютерной компанией. Сервисы интернет-рекламы могут полагаться на результаты классификации запросов для более точного продвижения различных продуктов. Страницы результатов поиска могут быть сгруппированы в соответствии с категориями, предсказанными алгоритмом классификации запроса. Однако вычисление классификации запросов нетривиально. В отличие от классификация документов задачи, запросы, отправленные пользователями веб-поиска, обычно короткие и неоднозначные; также значения запросов со временем меняются. Поэтому классификация тем запроса намного сложнее, чем традиционные задачи классификации документов.
KDDCUP 2005
Конкурс KDDCUP 2005[1] подчеркнул интерес к классификации запросов. Задача конкурса - разделить 800 000 реальных пользовательских запросов на 67 целевых категорий. Каждый запрос может принадлежать более чем к одной целевой категории. В качестве примера задачи контроля качества с учетом запроса «яблоко», Его следует разделить на ранжированные категории:«Компьютеры Аппаратное обеспечение; Живая еда и кулинария”.
Запрос | Категории |
---|---|
яблоко | Компьютеры Аппаратное обеспечение Живая еда и кулинария |
ФИФА 2006 | Спортивный футбол Расписание спортивных мероприятий и билеты Развлечения Игры и игрушки |
рецепты чизкейков | Живая еда и кулинария Информационное искусство и гуманитарные науки |
стихотворение о дружбе | Информационное искусство и гуманитарные науки Живые знакомства и отношения |
Сложности
Классификация тем веб-запросов заключается в автоматическом назначении запроса некоторым предопределенным категориям. В отличие от традиционных задач классификации документов, существует несколько основных трудностей, которые препятствуют развитию Интернета. понимание запроса:
Как получить соответствующее представление функции для веб-запросов?
Многие запросы короткие, а условия запроса шумные. Например, в наборе данных KDDCUP 2005 чаще всего встречаются запросы, содержащие 3 слова (22%). Кроме того, 79% запросов содержат не более 4 слов. Пользовательский запрос часто имеет несколько значений. Например, "яблоко"может означать фрукт или компьютерную компанию".Ява"может означать язык программирования или остров в Индонезии. В наборе данных KDDCUP 2005 большинство запросов содержат более одного значения. Таким образом, использование только ключевых слов запроса для настройки векторная космическая модель для классификации не подходит.
- Методы, основанные на обогащении запросов[2][3] начните с обогащения пользовательских запросов к коллекции текстовых документов с помощью поисковые системы. Таким образом, каждый запрос представлен псевдодокументом, который состоит из фрагментов страниц результатов с самым высоким рейтингом, полученных поисковой системой. Впоследствии текстовые документы классифицируются по целевым категориям с использованием классификатора на основе синонимов или статистических классификаторов, таких как Наивный байесовский (NB) и Машины опорных векторов (SVM).
Как адаптировать изменения запросов и категорий с течением времени?
Значение запросов также может меняться со временем. Следовательно, старые помеченные обучающие запросы могут скоро оказаться без данных и бесполезными. Как сделать классификатор адаптируемым со временем становится большой проблемой. Например, слово "Барселона"имеет новое значение нового микропроцессора AMD, в то время как это относится к городу или футбольному клубу до 2007 года. Таким образом, распределение значений этого термина является функцией времени в Интернете.
- Метод на основе промежуточной таксономии[4] сначала строит связующий классификатор на промежуточной таксономии, такой как Open Directory Project (ODP) в автономном режиме. Затем этот классификатор используется в онлайн-режиме для сопоставления пользовательских запросов с целевыми категориями через промежуточную таксономию. Преимущество этого подхода заключается в том, что классификатор моста необходимо обучать только один раз и он адаптируется для каждого нового набора целевых категорий и входящих запросов.
Как использовать журналы запросов без меток для классификации запросов?
Поскольку вручную помеченные обучающие данные для классификации запросов являются дорогостоящими, использование очень большого журнала запросов поисковой системы в качестве источника немаркированных данных для помощи в автоматической классификации запросов становится актуальной проблемой. В этих журналах записывается поведение пользователей Интернета при поиске информации через поисковую систему. За прошедшие годы журналы запросов стали богатым ресурсом, который содержит знания пользователей Интернета о World Wide Web.
- Метод кластеризации запросов[5] пытается связать связанные запросы путем кластеризации «данных сеанса», которые содержат несколько запросов и информацию о переходах от одного взаимодействия с пользователем. Они учитывают термины из результирующих документов, которые являются общими для набора запросов. Показано, что использование ключевых слов запроса вместе с данными сеанса является наиболее эффективным методом выполнения кластеризации запросов.
- Метод селективных предпочтений[6] пытается использовать некоторые правила ассоциации между условиями запроса, чтобы помочь с классификацией запроса. Учитывая обучающие данные, они используют несколько подходов к классификации, включая точное соответствие с использованием помеченных данных, соответствие N-Gram с использованием помеченных данных и классификаторы на основе восприятия. Они делают упор на подход, адаптированный из компьютерной лингвистики, который называется селекционными предпочтениями. Если x и y образуют пару (x; y) и y принадлежит категории c, то все остальные пары (x; z), возглавляемые x, принадлежат c. Они используют немаркированные данные журнала запросов для анализа этих правил и проверки эффективности своих подходов для некоторых помеченных запросов.
Приложения
- Метапоисковые системы отправить запрос пользователя в несколько поисковых систем и объединить лучшие результаты каждой в один общий список. Поисковая машина может систематизировать большое количество веб-страниц в результатах поиска в соответствии с потенциальными категориями выданного запроса для удобства навигации веб-пользователей.
- Вертикальный поискпо сравнению с общим поиском, он фокусируется на конкретных областях и удовлетворяет конкретные информационные потребности нишевых аудиторий и профессий. Как только поисковая машина может предсказать категорию информации, которую ищет веб-пользователь, она может автоматически выбрать определенную вертикальную поисковую машину, не заставляя пользователя явно обращаться к вертикальной поисковой машине.
- Он-лайн реклама[7][8] направлен на предоставление интересных рекламных объявлений пользователям Интернета во время их поисковой деятельности. Поисковая машина может предоставлять релевантную рекламу пользователям Интернета в соответствии с их интересами, так что пользователи Интернета могут сэкономить время и усилия на исследованиях, в то время как рекламодатели могут сократить свои расходы на рекламу.
Все эти службы полагаются на понимание поисковых запросов пользователей сети через их запросы.
Смотрите также
- Классификация документов
- Поисковый запрос в Интернете
- Поиск информации
- Расширение запроса
- Наивный байесовский классификатор
- Опорные векторные машины
- Мета поиск
- Вертикальный поиск
- Он-лайн реклама
использованная литература
- ^ Набор данных KDDCUP 2005
- ^ Шен и др. «Q2C @ UST: наше лучшее решение для классификации запросов». ACM SIGKDD Exploration, декабрь 2005 г., том 7, выпуск 2.
- ^ Шен и др. «Обогащение запросов для классификации веб-запросов». ACM TOIS, Vol. 24, No. 3, июль 2006 г..
- ^ Шен и др. "Наведение мостов для классификации веб-запросов". ACM SIGIR, 2006 г..
- ^ Wen et al. «Кластеризация запросов с использованием журналов пользователей», ACM TOIS, том 20, выпуск 1, январь 2002 г..
- ^ Beitzel et al. «Автоматическая классификация веб-запросов с использованием очень больших журналов запросов без меток», ACM TOIS, том 25, выпуск 2, апрель 2007 г..
- ^ Сбор данных и анализ аудитории для рекламы (ADKDD'07), Мастерская KDD 2007
- ^ Таргетинг и рейтинг для интернет-рекламы (TROA'08), WWW семинар 2008
дальнейшее чтение
- Шен. «Понимание веб-запросов на основе обучения». Кандидатская диссертация, HKUST, Июнь 2007 г.