Грамматика ограничений - Constraint grammar
Грамматика ограничений (CG) является методологической парадигмой для обработка естественного языка (НЛП). Написано лингвистом, зависит от контекста правила компилируются в грамматику, которая присваивает грамматические теги («чтения») словам или другим токенам в текущем тексте. Типичный адрес тегов лемматизация (лексема или же базовая форма ), перегиб, происхождение, синтаксическая функция, зависимость, валентность, кейсы, семантический тип и т. д. Каждое правило добавляет, удаляет, выбирает или заменяет тег или набор грамматических тегов в заданном контексте предложения. Условия контекста могут быть связаны с любым тегом или набором тегов любого слова в любом месте предложения, либо локально (определенные расстояния), либо глобально (неопределенные расстояния). Условия контекста в одном и том же правиле могут быть связаны, то есть обусловлены друг другом, отрицаться или блокироваться мешающими словами или тегами. Типичные компьютерные графики состоят из тысяч правил, которые применяются поэтапно, поэтапно, охватывая все более сложные уровни анализа. На каждом уровне безопасные правила используются перед эвристическими правилами, и никакому правилу не разрешается удалять последнее чтение данного типа, что обеспечивает высокую степень устойчивости.
Концепция компьютерной графики была запущена Фред Карлссон в 1990 году (Karlsson 1990; Karlsson et al., eds, 1995), и с тех пор CG-тегеры и синтаксические анализаторы были написаны для большого количества языков, регулярно получая F-баллы точности для часть речи (класс слов) более 99%.[1] Ряд синтаксических систем CG сообщил о примерно 95% F-баллах для меток синтаксических функций. Системы компьютерной графики могут использоваться для создания полных синтаксических деревьев в других формализмах путем добавления небольших, нетерминальных грамматики фразовой структуры или же грамматики зависимостей, и ряд Treebank проекты использовали компьютерную графику для автоматического аннотирования. Методология компьютерной графики также использовалась в ряде языковых технологических приложений, таких как средства проверки правописания и машинный перевод системы.
Реализации
CG-1
Первой реализацией CG была CGP Фреда Карлссона в начале 1990-х годов. Это было чисто LISP -based, а синтаксис был основан на s-выражениях LISP (Karlsson 1990).
CG-2
Реализация CG-2 Паси Тапанайнена mdis[2] удалил некоторые круглые скобки в формате грамматики и был реализован на C ++, интерпретируя грамматику как Конечный преобразователь состояния для скорости.
CG-2 был позже переопределен (не-FST методом) группой VISL в Сидданский университет как открытый исходный код VISL CG [1], сохраняя тот же формат, что и закрытый код Тапанайнена mdis.
CG-3
Позднее проект VISL превратился в VISL CG-3, который внес дальнейшие изменения и дополнения в формат грамматики, например:
- полный Unicode поддержка через Международные компоненты для Unicode
- иное толкование отрицания (НЕ)
- именованные отношения в дополнение к простым отношениям зависимости
- переменная установка
- полное соответствие регулярному выражению
- обертки для чтения / записи Apertium и HFST форматы
- поддержка дополнительных чтений (где одно чтение состоит из нескольких «частей», используемых для многословных выражений и составных слов)
- сканирование мимо исходной точки или даже границ окна
В отличие от реализации Тапанайнена, реализации VISL не используют преобразователи конечного состояния. Правила упорядочены внутри разделов, что дает большую предсказуемость при написании грамматик, но за счет более медленного синтаксического анализа и возможности бесконечных циклов.
В последнее время появились экспериментальные реализации на основе FST с открытым исходным кодом, которые для небольших грамматик достигают скорости VISL CG-3, если не mdis.[3]
Список систем
- Бесплатно программное обеспечение
- VISL CG-3 Компилятор / парсер CGrammar
- север и Луле Сами, Фарерские острова, Коми и Гренландский от Университет Тромсё (Дополнительная информация, Документация северных саамов )
- эстонский [2]
- норвежский язык Нюнорск и букмол онлайн, Осло-Берген tagger (исходный код )
- Бретонский, валлийский, Ирландский гэльский и норвежский язык (преобразовано из приведенного выше) в Apertium (видеть Компьютерная графика в Apertium )
- Несвободное программное обеспечение
- Баскский [3]
- Каталонский CATCG
- Датский DanGram
- английский ENGCG, ENGCG-2, VISL-ENGCG
- эсперанто EspGram
- Французский FrAG
- Немецкий GerGram
- Ирландский онлайн
- Итальянский ItaGram
- испанский HISPAL
- Шведский SWECG
- суахили
- португальский ПАЛАВРАС
Рекомендации
Scholia имеет тема профиль для Грамматика ограничений. |
- ^ Для английского см., Например, Tapanainen and Voutilainen 1994.
- ^ Тапанайнен, Паси 1996: Парсер грамматики ограничений CG-2. Публикации Хельсинкского университета № 27.
- ^ Немески, Д. М., Тайерс, Ф. М. и Хулден, М. (2014) «Почему имеет значение реализация: оценка анализатора грамматики ограничений с открытым исходным кодом». Труды 25-й Международной конференции по компьютерной лингвистике (COLING 2014) (в печати)
- Бик, Экхард. 2000 г. Система синтаксического анализа "Palavras": автоматический грамматический анализ португальского языка в рамках грамматики ограничений. Орхус: Издательство Орхусского университета. ISBN 87-7288-910-1.
- Карлссон, Фред. 1990. Ограниченная грамматика как основа для анализа неограниченного текста. Х. Карлгрен, изд., Материалы 13-й Международной конференции компьютерной лингвистики, Vol. 3. Хельсинки, 1990, 168–173.
- Карлссон, Фред, Атро Воутилайнен, Юха Хейккиля и Арто Анттила, редакторы. 1995 г. Грамматика ограничений: независимая от языка система для анализа текста без ограничений. Обработка естественного языка, № 4. Мутон де Грюйтер, Берлин и Нью-Йорк. ISBN 3-11-014179-5.
- Тапанайнен, Паси и Атро Воутилайнен 1994: Точная маркировка: не угадайте, если знаете. ANLC '94 Труды четвертой конференции по прикладной обработке естественного языка.
внешняя ссылка
- Учебник по компьютерной графике Кевин Доннелли
- VISL CG-3, компилятор / парсер грамматики
- Список некоторых публикаций по ограничительной грамматике (как минимум до 2010 года)