Средство поиска информации - Information Retrieval Facility

Логотип IRF

В Средство поиска информации (IRF), основанная в 2006 г. и расположенная в г. Вена, Австрия, была исследовательской платформой для создания сетей и сотрудничества для профессионалов в области поиск информации. Он прекратил работу в 2012 году.

В IRF входили члены следующих категорий:

  • Исследователи в поиск информации (IR) или смежные научные области
  • Специалисты по управлению промышленной / корпоративной информацией
  • Патентные органы и государственные учреждения
  • Студенты одного из вышеперечисленных

Ученый совет

Научные цели

  • Моделирование инновационных и специализированных систем поиска информации для глобальных коллекций патентных документов.
  • Исследование и разработка соответствующей технической инфраструктуры, которая позволяет интерактивное экспериментирование с формальными математическими концепциями поиска для очень крупных коллекций документов. <
  • Изучение применимости мультимодальных пользовательских интерфейсов к очень крупномасштабным системам поиска информации.
  • Интеграция реальных пользователей с реальными информационными потребностями в исследовательский процесс моделирования информационно-поисковых систем для точной оценки производительности.
  • Возможность создания различных представлений патентных данных в зависимости от направленности необходимой информации.
  • Определение стандартных методов для сравнительного анализа процесса поиска информации в коллекциях патентных документов.
  • Способность согласованно обрабатывать текстовые и нетекстовые части патента.
  • Разработка, экспериментирование и оценка поисковых систем, способных находить структурированные и частично структурированные документы в очень крупных патентных коллекциях.
  • Интеграция временного измерения патентных документов в стратегии поиска.
  • Повышение эффективности и точности поиска патентов на основе онтологий и методов понимания естественного языка.
  • Уточнение методов IR, которые позволяют выполнять неструктурированные запросы, используя доступную структуру в патентных документах.
  • Формальная (математическая) идентификация и спецификация соответствующих потребностей в деловой информации в области информации об интеллектуальной собственности.
  • Исследование эффективных механизмов масштабирования для поиска информации с учетом характеристик патентных данных.
  • Изучение и эксперименты с вычислительными архитектурами для управления информацией очень высокой емкости.
  • Создание открытого электронная наука платформа, которая обеспечивает стандартизированный и простой способ создания и проведения ИК-экспериментов в общей исследовательской инфраструктуре.
  • Обнаружение и изучение новых вариантов использования и бизнес-приложений, основанных на информации об интеллектуальной собственности.
  • Обеспечение формального поиска информации, естественного языка и исследований семантической обработки, чтобы вырасти в область прикладных наук в глобальном промышленном контексте.
  • Разработка и интеграция различных методов доступа к информации.
  • Исследование эффективных методов интерактивного поиска информации.

Семантический суперкомпьютер

Современные технологии извлечения концепций из неструктурированных документов требуют чрезвычайно больших вычислительных ресурсов. Чтобы позволить интерактивное экспериментирование с обширными и огромными текстовыми корпусами, IRF построил высокопроизводительную вычислительную среду, в которой были реализованы последние технологические достижения:

  • многоузловые кластеры (сейчас 80 ядер, до 1024)
  • высокоскоростная технология межсоединений
  • единый образ системы с большой составной памятью (в настоящее время 320 ГБ, до 4 ТБ)
  • полностью интегрированные конфигурируемые вычисления (в настоящее время 4 FPGA ядер, до 256)

Комбинация этих функций HPC для ускорения интеллектуальный анализ текста представляет собой реализацию семантического суперкомпьютера IRF.

Всемирный патентный корпус

Цель IRF - предоставить сообществу профессионалов в области патентной информации самые современные технологии поиска информации. Мы ожидаем, что информационные поисковые технологии (IR) очень скоро станут основным направлением информационных технологий. Все отрасли могут получить прибыль от применения современных и будущих процессов интеллектуального анализа текста к особым требованиям патентных исследований. Хотя все идеи и концепции универсально применимы ко всем видам информации об интеллектуальной собственности, патенты требуют максимальной сложности и ставят перед нами сложные технические и организационные проблемы. Весь корпус связанных с патентами документов, возможно, составляет самый большой корпус составных документов, что делает его полезной целью как для ученых, занимающихся анализом текста, так и для конечных пользователей. Более того, патенты стали важной проблемой, особенно для крупных глобальных корпораций и университетов. Промышленные пользователи патентных данных относятся к числу наиболее требовательных и важных профессионалов в области информации. Как следствие, они могут получить максимальную выгоду от технологии, которая снимает бремя исследования большого объема патентной информации.

Коллекции исследований

IRF предоставляет ряд наборов тестовых данных, которые были разработаны IRF, одним из ее членов или третьими сторонами. Эти коллекции данных можно свободно использовать для научных экспериментов.

Коллекция MAtrixware REsearch (MAREC ) является первым стандартизированным корпусом патентных данных для исследовательских целей. Он состоит из 19 миллионов патентных документов на разных языках, нормализованных до очень специфичного формата XML. Коллекция разработана компанией Matrixware для IRF.

The ClueWeb09[нужна цитата ] Коллекция представляет собой набор данных размером 25 терабайт, содержащий около 1 миллиарда веб-страниц, просканированных в январе и феврале 2009 года. Он был создан Институтом языковых технологий в Университет Карнеги Меллон для поддержки исследований в области поиска информации и связанных с ним технологий человеческого языка.

Рекомендации

внешняя ссылка