Кристофер Д. Пэйс - Christopher D. Paice
Кристофер Ди Пэйс был одним из пионеров исследования остановка. Стеммер Paice-Husk был опубликован в 1990 году, и его метод оценки производительности стеммера с помощью коэффициента ошибок с учетом усечения (ERRT) был первым прямым методом сравнения ошибок недостаточного и чрезмерного стемминга. Помимо своей новаторской работы над алгоритмами выделения и методами оценки, он сделал и другие исследования в области Поиск информации, разрешение анафоры и автоматическое реферирование. [1] [2]
Педагогическая карьера
Кристофер Д. Пейс был членом Школы вычислений и коммуникаций (SCC) в Ланкастерский университет, объединенное Королевство около сорока лет, сначала присоединившись к тогдашнему Департаменту компьютерных исследований в качестве научного сотрудника в 1969-70; затем переход к лекционной работе. В 1977-78 гг. Исполнял обязанности начальника управления, в 1979-82 гг. - заведующий кафедрой, в 2009 г. вышел на пенсию.[3]
Алгоритм стемминга Paice-Husk
Стеммер Paice-Husk был разработан Крисом Д. Пейсом при содействии Гарета Хуска с вычислительного факультета Ланкастерского университета в конце 1980-х годов, он включает в себя хранимый извне набор правил стемминга и эту гибкость по сравнению с Стеммер Портера сделал его интересным для нескольких исследователей.[4]
Первоначально реализованный на языке программирования Паскаль, дальнейшие реализации были выполнены с использованием ANSI C и Java. Версия Perl была реализована Мэри Таффет из Центра обработки естественного языка в Сиракузском университете, США.[5]
Стеммер состоит из алгоритма стемминга и отдельного набора правил стемминга. Стандартный набор правил предусматривает «сильный» стеммер. Сила стержня - это качество, которое является преимуществом для сжатия индекса, однако оно приводит к большему количеству ошибок овертемминга по сравнению с количеством ошибок подтягивания; Пользователи, которым нужен более легкий стеммер, могут легко разработать свой собственный набор правил.
Stemmer является итеративным (т.е.концовки удаляются по частям в неопределенном количестве этапов), и правила могут определять удаление или замену концовки. Метод замены позволяет избежать необходимости в отдельном этапе процесса для перекодирования или обеспечения частичного сопоставления; это помогает поддерживать эффективность алгоритма. Правила индексируются по последней букве окончания, чтобы обеспечить эффективный поиск.[6]
Оценка стеммера
Помимо самого Stemmer, Крис Пэйс разработал метод прямого измерения производительности стеммеров, используя сгруппированные списки слов, примененных к стеммеру, подсчитывая количество ошибок подтемминга и стеммера, а затем сравнивая результаты с тем, что было бы получено с помощью набор стеммеров усечения. Последней мерой является коэффициент ошибок относительно усечения (ERRT).[7][8]
Личная жизнь
Кристофер Д. Пэйс родился в 1941 году, он женился на Кэтлин Ф. Мосс в 1965 году в регистрационном округе Манчестера. В 2015 году у него была диагностирована агрессивная опухоль головного мозга, вскоре после того, как он и его жена переехали из Камбрии в Стратфорд, он скончался 21 апреля. 2016 г.
Публикации
- C D Paice (1977). Информационный поиск и компьютер,. Макдональд и Джейн, Лондон.
- C D Paice (1980). Труды СИГИР '80 Автоматическая генерация литературных рефератов: подход, основанный на выявлении самоназначающихся фраз.. Баттерворт. ISBN 0-408-10775-8.
- C D Paice (1984). Приложения для исследований в области информационных технологий: том 3, выпуск 1, Мягкое вычисление логических поисковых запросов в информационно-поисковых системах. Баттерворт.
- C D Paice; В. Арагон-Рамирес (1985). RIAO '85: Recherche d'Informations Assistée par Ordinateur, Расчет сходства между строками из нескольких слов с использованием тезауруса. LE CENTER DE HAUTES ETUDES INTERNATIONALES D'INFORMATIQUE DOCUMENTAIRE.
- C D Paice (1986). Труды ASLIB: Том 38 Выпуск 10, Экспертные системы для поиска информации?. Аслиб, Ассоциация управления информацией.
- C D Paice (1990). Обработка информации и управление: международный журнал, том 26, выпуск 1 Создание рефератов литературы с помощью компьютера: методы и перспективы. Pergamon Press, Inc.
- C D Paice (1990). Обработка информации и управление: международный журнал, том 27, выпуск 5, ауральная модель поиска информации. Pergamon Press, Inc.
- C D Paice (1991). Форум ACM SIGIR: Том 24 Выпуск 3 Еще один стеммер. ACM.
- Ф. К. Джонсон; К. Д. Пэйс; У. Дж. Блэк; А. П. Нил (1997). Чтения при поиске информации: применение лингвистической обработки для автоматического создания рефератов.. Компания Morgan Kaufmann Publishers Inc.
- Майкл Б. Твидейл; Дэвид М. Николс; Крис Д. Пэйс (1997). Обработка информации и управление: международный журнал: том 33, выпуск 6, просмотр - это совместный процесс. Pergamon Press, Inc.
- Майкл П. Оукс; К. Д. Пэйс (1999). IRSG'99: Материалы 21-й ежегодной конференции BCS-IRSG по поиску информации Автоматическое создание шаблонов для автоматического реферата. BCS.
- К. Д. Пейс (2009). Лексический анализ текстовых данных. Энциклопедия систем баз данных. Спрингер, США. С. 1606–1610. ISBN 978-0-387-35544-3.
- К. Д. Пейс (2009). Стебель. Энциклопедия систем баз данных. Спрингер, США. С. 2790–2793. ISBN 978-0-387-35544-3.
использованная литература
- ^ [1], Университет Трира, Библиография по информатике DBLP
- ^ [2], Страница автора ACM, C D Paice
- ^ [3], Университет Ланкастера, Памяти Криса Пэйса
- ^ [4], Усовершенствования алгоритма стемминга Ланкастера (стеммер Paice-Husk), Антонио Самора
- ^ [5], GitHub, Paice-Husk Stemmer на нескольких языках
- ^ «Архивная копия». В архиве из оригинала от 22 августа 2006 г.. Получено 2006-08-22.CS1 maint: заархивированная копия как заголовок (ссылка на сайт)
- ^ Paice, C.D., (1994) Метод оценки алгоритмов определения корней, в Крофт, У. & ван Рейсберген, К.Дж. (ред.), Труды 17-й конференции ACM SIGIR, проходившей в Дублине 3–6 июля 1994 г .; С. 42-50.
- ^ Paice, C.D. (1996) Метод оценки алгоритмов стемминга на основе подсчета ошибок, JASIS, 47 (8): 632-649.