Получение XML - XML retrieval
Эта статья требует внимания специалиста в области информатики.Январь 2015) ( |
Получение XML, или же Получение информации XML, это поиск документов, структурированных с помощью XML (расширяемый язык разметки). Как таковой он используется для вычислений актуальность XML-документов.[1]
Запросы
Большинство подходов к поиску XML основываются на методах из поиск информации (IR) область, например путем вычисления сходства между запросом, состоящим из ключевых слов (терминов запроса), и документом. Однако в XML-Retrieval запрос также может содержать структурный подсказки. Так называемые запросы «содержимого и структуры» (CAS) позволяют пользователям указать, какую структуру может или должно иметь запрошенное содержимое.
Использование структуры XML
Воспользовавшись самоописывающий Структура XML-документов может значительно улучшить поиск XML-документов. Это включает в себя использование запросов CAS, различное взвешивание различных элементов XML и целенаправленный поиск вложенных документов.
Рейтинг
Ранжирование в XML-Retrieval может включать в себя как релевантность контента, так и структурное сходство, которое является сходством между структурой, указанной в запросе, и структурой документа. Кроме того, блоки поиска, полученные в результате запроса XML, не всегда могут быть целыми документами, но могут быть любыми глубоко вложенными элементами XML, то есть динамическими документами. Цель состоит в том, чтобы найти наименьшую релевантную поисковую единицу. Релевантность может быть определена в соответствии с понятием специфичности, которое представляет собой степень, в которой поисковая единица фокусируется на теме запроса.[2]
Существующие поисковые системы XML
Доступен обзор двух возможных подходов.[3][4] Инициатива по оценке XML-поиска (INEX) была основана в 2002 году и предоставляет платформу для оценки таких алгоритмы.[2] На получение XML-данных влияют три различных области:[5]
Традиционные языки запросов XML
Языки запросов такой как W3C стандарт XQuery[6] предоставлять сложные запросы, но искать только точные совпадения. Следовательно, их необходимо расширить, чтобы обеспечить расплывчатый поиск с вычислением релевантности. Большинство подходов, ориентированных на XML, предполагают довольно точное знание документов ». схемы.[7]
Базы данных
Классический база данных системы приняли возможность хранить полуструктурированные данные[5] и привело к развитию Базы данных XML. Часто они носят формальный характер, больше сосредоточены на поиске, чем на ранжировании, и используются опытными пользователями, способными формулировать сложные запросы.
Поиск информации
Классические модели поиска информации, такие как векторная космическая модель обеспечивать рейтинг релевантности, но не включать структуру документа; поддерживаются только плоские запросы. Кроме того, они применяют концепцию статического документа, поэтому единицы поиска обычно представляют собой целые документы.[7] Их можно расширить для учета структурной информации и динамического поиска документов. Доступны примеры подходов, расширяющих модели векторного пространства: они используют документ поддеревья (индексные термины плюс структура) как размеры векторного пространства.[8]
Наборы данных XML, ориентированные на данные
Для наборов данных XML, ориентированных на данные, уникальный и отличный метод поиска по ключевым словам, а именно XDMA[9] для баз данных XML спроектирован и разработан на основе двойного индексирования и взаимного суммирования.
Смотрите также
Рекомендации
- ^ Винтер, Джудит; Дробник, Освальд (9 ноября 2007 г.). "Архитектура для поиска информации XML в одноранговой среде" (PDF). ACM. Получено 2009-02-10.
- ^ а б Малик, Саадиа; Тротман, Эндрю; Лалмас, Муниа; Фур, Норберт (2007). «Обзор INEX 2006» (PDF). Труды пятого семинара Инициативы по оценке поиска XML. Архивировано из оригинал (PDF) 16 октября 2008 г.. Получено 2009-02-10.
- ^ Амер-Яхья, Сихем; Лалмас, Муниа (2006). "XML-поиск: языки, INEX и оценка" (PDF). SIGMOD Rec. 35 (4). Дои:10.1145/1228268.1228271. S2CID 17300151. Получено 2009-02-10.[мертвая ссылка ]
- ^ Пал, Сукомал (30 июня 2006 г.). «Получение XML: обзор». Технический отчет, CVPR. CiteSeerX 10.1.1.109.5986. Цитировать журнал требует
| журнал =
(помощь) - ^ а б Фур, Норберт; Gövert, N .; Казай, Габриэлла; Лалмас, Муниа (2003). "INEX: Инициатива по оценке поиска XML" (PDF). Труды Первого семинара INEX, Дагштуль, Германия, 2002 г.. ERCIM Workshop Proceedings, Франция. Архивировано из оригинал (PDF) 21 ноября 2008 г.. Получено 2009-02-10.
- ^ Боаг, Скотт; Чемберлин, Дон; Фернандес, Мэри Ф .; Флореску, Даниэла; Роби, Джонатан; Симеон, Жером (23 января 2007 г.). «XQuery 1.0: язык запросов XML». Рекомендация W3C. Консорциум World Wide Web. Получено 2009-02-10.
- ^ а б Шлидер, Торстен; Мейс, Хольгер (2002). «Запросы и ранжирование XML-документов». Журнал Американского общества информационных наук и технологий. 53 (6): 489–503. Дои:10.1002 / asi.10060. Архивировано из оригинал 10 июня 2007 г.. Получено 2009-02-10.
- ^ Лю, Шаожун; Цзоу, Цинхуа; Чу, Уэсли В. (2004). «Настраиваемое индексирование и ранжирование для поиска информации XML» (PDF). СИГИР'04. ACM. Получено 2009-02-10.
- ^ Selvaganesan, S .; Ха, Су-Ченг; Вскоре Lay-Ki (2014). «XDMA: алгоритм поиска по ключевым словам на основе двойного индексирования и взаимного суммирования для баз данных XML». Международный журнал программной инженерии и инженерии знаний. 24 (4): 591–615. Дои:10.1142 / s0218194014500223.