BulSemCor - BulSemCor

В Болгарский смысловой аннотированный корпус (BulSemCor) (болгарский: Български семантично анотиран корпус (БулСемКор)) представляет собой структурированный корпус болгарских текстов, в котором каждому лексическому элементу присвоен смысловой тег. BulSemCor был создан кафедрой компьютерной лингвистики[1] на Институт болгарского языка из Болгарская академия наук.

Структура

BulSemCor был создан в рамках финансируемого государством проекта под названием «BulNet - лексико-семантическая сеть для болгарского языка» (2005–2010). Он следует общей методологии SemCor[2] в сочетании с некоторыми конкретными принципами.[3] Корпус для аннотации состоит из 101 791 токена, охватывающего отрывок из болгарского "коричневого" корпуса.[4] по образцу Brown Corpus.Фрэнсис Кучера Важной особенностью BulSemCor является то, что образцы отбираются с использованием эвристики, которая обеспечивает оптимальное покрытие неоднозначной лексики.

BulSemCor вручную аннотируется в соответствии с Болгарский WordNet. Его размер сопоставим с размером других современных семантически аннотированных корпусов или пула приемлемых лингвистических компонентов. Семантическая аннотация заключается в том, что каждому лексическому элементу в корпусе ставится в соответствие ровно один набор синонимов (синсет) в болгарском WordNet, который лучше всего описывает его смысл в конкретном контексте. Выбор наилучшего соответствия среди предложенных кандидатов основан на наборе процедур, таких как другие члены synset, глянец synset (пояснительное определение) и положение данного кандидата в структуре WordNet.

Шкала

Количество аннотированных токенов составляет 99 480 (разница в количестве токенов по сравнению с исходным корпусом связана с тем, что некоторые из них не являются лингвистическими элементами). Простое количество слов составляет 86842, а многословных выражений (MWE) - 5797 (12 638 токенов).

Особенности

Всем словам в BulSemCor присваивается смысл, в то время как в соответствии с установленной практикой аннотируются только простые слова содержимого или классы слов содержимого (обычно существительные и глаголы). С 2000 года разработка языковых ресурсов расширилась за счет включения аннотаций функциональных слов и многословных выражений, охватывающих определенные значения или типы слов и выражений. В этом отношении аннотация BulSemCor является более исчерпывающей и, следовательно, предоставляет большие возможности для лингвистических наблюдений и приложений нелинейного программирования (NLP).

Аннотированные элементы наследуют лингвистическую информацию, связанную с соответствующим набором синонимов, который наряду с морфологическими и семантическими тегами может включать аннотацию на одном или нескольких из следующих дополнительных уровней:[5]

  • Неполная информация о синтаксической структуре типов MWE - в частности, информация о синтаксических заголовках и их зависимостях;
  • Информация о категории названных лиц - имена, местонахождение, организации, даты, номера и т.д .;
  • Информация о таксономической категории наречий, например, время, место, способ, степень, количество и т. Д .;
  • Информация о типе синтаксических отношений - согласование или подчинение - выраженных союзами;
  • Информация об исходной части речи субстантивированных слов (не существительных, которые действуют как существительные в определенном контексте);
  • Стилистическая / регистровая, грамматическая и другая информация о синсетах или отдельных членах синсета;

Смотрите также

Рекомендации

  • Коева, Светла (2010). "Балгарският семантично анотиран корпус" [Болгарский смысловой аннотированный корпус].CS1 maint: ref = harv (связь)
  • Коева, Светла; Лесева, С .; Тодорова М. (23 мая 2006 г.). Корпус с тегами болгарского смысла. 5-й семинар SALTMIL по языкам меньшинств: стратегии разработки машинного перевода для языков меньшинств. С. 79–87.CS1 maint: ref = harv (связь)
  • Миллер, Г. А. (1995). "Построение семантических соответствий: устранение неоднозначности и аннотации. Технический отчет AAAI SS-95-01" (PDF): 92–94. Цитировать журнал требует | журнал = (помощь)CS1 maint: ref = harv (связь)
  • Тодорова, М .; Кукова, Х .; Лесева, С. (2014). Семантически аннотированные ресурсы за балгарский эзик - BulSemCor (Семантически аннотированные ресурсы для болгарского языка - BulSemCor) [Языковые ресурсы и технологии для болгарского языка]. Езикови ресурсы и технологии за балгарски език. Академическое издательство. С. 80–104. ISBN  978-954-322-797-6.CS1 maint: ref = harv (связь)
  • Francis, N .; Кучера, Х. (1979), Руководство с информацией, сопровождающей стандартный образец современного отредактированного американского английского языка для использования с цифровыми компьютерами, Провиденс, Род-Айленд: Департамент лингвистики Брауновского университета, архивировано из оригинал 18 мая 2014 г., получено 7 июля, 2013CS1 maint: ref = harv (связь)

внешняя ссылка