Treebank - Treebank
Эта статья использование внешняя ссылка может не следовать политикам или рекомендациям Википедии.Ноябрь 2017 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В лингвистика, а берега дерева это проанализированный текстовый корпус который аннотирует синтаксический или же семантический приговор структура. Конструирование разобранных корпусов в начале 1990-х произвело революцию компьютерная лингвистика, которые выиграли от масштабных экспериментальные данные.[1] Использование данных банка деревьев было важным с момента появления первого крупномасштабного банка деревьев, Penn Treebank, был опубликован. Однако, несмотря на то, что они зародились в компьютерной лингвистике, ценность береговых деревьев становится все более широко признанной в лингвистических исследованиях в целом. Например, аннотированные данные банка деревьев сыграли решающую роль в синтаксических исследованиях, чтобы проверить лингвистические теории структуры предложений на большом количестве встречающихся в природе примеров.
Этимология
Период, термин берега дерева был придуман лингвистом Джеффри Лич в 1980-х годах по аналогии с другими репозиториями, такими как банк семян или же банк крови.[2] Это связано с тем, что и синтаксическая, и семантическая структура обычно представлены композиционно как древовидная структура. Период, термин проанализированный корпус часто используется взаимозаменяемо с термином «древовидный банк», с акцентом на примат предложений, а не деревьев.
Строительство
Деревья часто создаются поверх корпуса, который уже был аннотирован теги части речи. В свою очередь, берега деревьев иногда улучшаются семантический или другая лингвистическая информация. Древовидные группы могут быть созданы полностью вручную, когда лингвисты аннотируют каждое предложение с синтаксической структурой, или полуавтоматически, когда парсер назначает синтаксическую структуру, которую лингвисты затем проверяют и, при необходимости, исправляют. На практике полная проверка и завершение синтаксического анализа корпусов естественного языка - это трудоемкий проект, на который команды дипломированных лингвистов могут уйти несколько лет. Уровень детализации аннотаций и широта лингвистической выборки определяют сложность задачи и время, необходимое для построения банка дерева.
Некоторые группы деревьев следуют определенной лингвистической теории в своей синтаксической аннотации (например, BulTreeBank следует HPSG ), но большинство стараются быть менее конкретными. Однако можно выделить две основные группы: банки деревьев с аннотациями. структура фразы (например, Penn Treebank или же ICE-GB ) и те, которые аннотируют структура зависимости (например, Пражский филиал Treebank или Древовидный банк зависимостей от коранического арабского языка ).
Важно уточнить различие между формальным представлением и форматом файла, используемым для хранения аннотированных данных. Берега деревьев обязательно строятся по определенной грамматике. Одна и та же грамматика может быть реализована в разных форматах файлов. Например, синтаксический анализ для Джон любит Мэри, показанный на рисунке справа, может быть представлен в текстовом файле простыми помеченными скобками, как это (после Penn Treebank обозначение):
(S (NP (NNP John)) (VP (VPZ любит) (NP (NNP Mary))) (.))
Этот тип представления популярен, потому что он не требует больших ресурсов, а древовидную структуру относительно легко читать без программных инструментов. Однако по мере того, как корпуса становятся все более сложными, могут быть предпочтительны другие форматы файлов. Альтернативы включают специфичные для дерева деревьев XML схемы, нумерованные отступы и различные типы обозначений противостояния.
Приложения
Из компьютерная лингвистика [3] С точки зрения перспективы, банки деревьев были использованы для разработки современных систем обработки естественного языка, таких как тегеры части речи, парсеры, семантические анализаторы и системы машинного перевода[4]. Большинство вычислительных систем используют данные золотого стандарта дерева деревьев. Тем не менее, автоматически анализируемый корпус, который не исправляется лингвистами-людьми, все еще может быть полезен. Он может предоставить свидетельство частоты правил для анализатора. Синтаксический анализатор можно улучшить, применив его к большим объемам текста и собрав частоты правил. Однако должно быть очевидно, что только в процессе исправления и дополнения корпуса вручную можно идентифицировать правила, отсутствующие в базе знаний парсера. Кроме того, частоты, вероятно, будут более точными.
В корпусная лингвистика, группы деревьев используются для изучения синтаксических явлений (например, диахронические корпуса могут использоваться для изучения динамики синтаксических изменений). После анализа корпус будет содержать частотные свидетельства, показывающие, насколько часто используются различные грамматические структуры. Берега деревьев также служат доказательством охвата и поддерживают открытие новых, неожиданных грамматических явлений.
Другое использование берегов деревьев в теоретическая лингвистика и психолингвистика является свидетельством взаимодействия. Заполненный древовидный банк может помочь лингвистам проводить эксперименты, выясняя, как решение использовать одну грамматическую конструкцию имеет тенденцию влиять на решение о формировании других, и попытаться понять, как говорящие и писатели принимают решения, составляя предложения. Исследование взаимодействия особенно плодотворно в качестве дополнительных слоев аннотации, например семантические, прагматические, добавляются в корпус. Затем можно оценить влияние несинтаксических явлений на выбор грамматики.
Семантические деревья
Банк семантического дерева - это набор предложений на естественном языке, аннотированных смысловым представлением. Эти ресурсы используют формальное представление каждого предложения семантическая структура. Семантические древовидные банки различаются по глубине своего семантического представления. Ярким примером глубокой семантической аннотации является Groningen Meaning Bank, разработанный в Гронингенский университет и аннотируется с использованием Теория репрезентации дискурса. Пример неглубокого семантического банка дерева: PropBank, который обеспечивает аннотацию словесных предложений и их аргументов, не пытаясь представить каждое слово в корпусе в логическая форма.
Банки деревьев глубокого синтаксиса
Глубокий синтаксический банк дерева - это банк дерева, лежащий на стыке синтаксиса и семантики, где структура представления может быть интерпретирована как граф, представляющий предмет бесконечных фраз, извлечения, конструкции it-clef, многоточия общего предмета и так далее. (расширить)
Синтаксические банки деревьев
Многие синтаксические банки деревьев были разработаны для самых разных языков:
Чтобы облегчить дальнейшие исследования между многоязычными задачами, некоторые исследователи обсудили универсальную схему аннотаций для кросс-языков. Таким образом, люди пытаются использовать или объединить преимущества разных корпусов деревьев. Например, универсальный подход к аннотации для дерева зависимостей;[10] и универсальный подход к аннотации для древовидных структур фраз.[11]
инструменты поиска
Один из ключевых способов извлечения доказательств из банка деревьев - поисковые инструменты. Инструменты поиска для проанализированных корпусов обычно зависят от схемы аннотаций, примененной к корпусу. Сложность пользовательских интерфейсов варьируется от систем запросов на основе выражений, предназначенных для компьютерных программистов, до сред полного исследования, предназначенных для лингвистов общего профиля. Wallis (2008) подробно обсуждает принципы поиска берегов деревьев и рассматривает современное состояние.[12]
- Грамматика структуры фраз
- CorpusSearch
- fsq
- ICECUP III; ICECUP IV
- Лингвистическая база данных (LDB)
- MonaSearch
- tgrep; tgrep2
- Tregex
- VIQTORYA
- Грамматика зависимостей
- Грамматика зависимостей и / или грамматика структуры фраз
- АННИС (многослойный)
- PML-TQ (многослойный)
- ТигрПоиск (Одиночный слой)
- INESS-Поиск
- Другие
Смотрите также
Рекомендации
- ^ Александр Кларк, Крис Фокс и Шалом Лаппин (2010). Справочник по компьютерной лингвистике и обработке естественного языка. Вайли.
- ^ Сэмпсон, Г. (2003) «Размышления дендрографа». В A. Wilson, P. Rayson и T. McEnery (eds.) Corpus Linguistics by the Lune: Festschrift for Geoffrey Leech, Frankfurt am Main: Peter Lang, pp. . 157-184
- ^ Хайтао Лю, Вэй Хуан - Синтаксис зависимости китайского языка для Treebanking, опубликовано Коммуникационный университет Китая, опубликовано (онлайн) Ассоциация компьютерной лингвистики - дата обращения 2020-2-4.
- ^ Кюблер, Сандра; Макдональд, Райан; Нивр, Иоаким (18 декабря 2008 г.). «Анализ зависимостей». Синтез лекций по технологиям человеческого языка. 2 (1): 1–127. Дои:10.2200 / с00169ed1v01y200901hlt002.
- ^ Kais Dukes (2013) Семантическая аннотация пространственных команд роботов. Конференция по языкам и технологиям (LTC). Познань, польша.
- ^ Челано, Джузеппе Г. А. 2014. Руководство по аннотации Древнего банка Древней Греции 2.0. https://github.com/PerseusDL/treebank_data/edit/master/AGDT2/guidelines
- ^ Мамбрини, Ф. 2016. Древнегреческий банк деревьев зависимости: лингвистическая аннотация в учебной среде. В: Бодар, Дж. И Романелло, М. (ред.) Цифровая классика вне эхо-камеры: преподавание, обмен знаниями и участие общественности, стр. 83–99. Лондон: Ubiquity Press. Дои:10.5334 / bat.f
- ^ а б c d е ж Даг Хауг. 2015. Treebank в историко-лингвистических исследованиях. В Карлотте Вити (ред.), Перспективы исторического синтаксиса, Бенджамины, 188-202. Препринт доступен на сайте http://folk.uio.no/daghaug/historical-treebanks.pdf.
- ^ Бамман Дэвид и др. 2008. Руководство по синтаксической аннотации латинских берегов деревьев (v. 1.3). http://nlp.perseus.tufts.edu/syntax/treebank/1.3/docs/guidelines.pdf
- ^ McDonald, R .; Nivre, J., Quirmbach-Brundage, Y .; и другие. «Универсальная аннотация зависимостей для многоязычного синтаксического анализа». Материалы ACL 2013.CS1 maint: несколько имен: список авторов (связь)
- ^ Хан, А.Л.-Ф; Wong, D.F .; Chao, L.S .; Lu, Y .; Хе, Л. и Тиан, Л. (2014). "Универсальный набор тегов фраз для многоязычных групп деревьев" (PDF). Протоколы CCL и NLP-NABD 2014, LNAI 8801, стр. 247–258. © Springer International Publishing Switzerland. Дои:10.1007/978-3-319-12277-9_22.
- ^ Уоллис, Шон (2008). Поиск в банках деревьев и других структурированных корпусах. Глава 34 в Lüdeling, A. & Kytö, M. (ed.) Корпусная лингвистика: международный справочник. Серия Handbücher zur Sprache und Kommunikationswissenschaft. Берлин: Мутон де Грюйтер.