Болгарский национальный корпус - Bulgarian National Corpus

В Болгарский национальный корпус (BulNC) - крупный представитель корпус болгарского языка, включающего около 200 000 текстов и более 1 миллиарда слов.[1]

История

Болгарский национальный корпус создан в Институте болгарского языка им. Проф. Л. Андрейчин »научными сотрудниками кафедры компьютерной лингвистики и кафедры болгарской лексикологии и лексикографии. BulNC включает в себя несколько отдельных электронных корпусов, разработанных в период 2001-2009 годов для целей двух отделов. Корпус постоянно пополняется новыми текстами.[2][3]

Содержание

Болгарский национальный корпус состоит из одноязычной (болгарской) части и 47 параллельных корпусов. Болгарская часть включает около 1,2 миллиарда слов в более чем 240 000 текстовых образцов. Материалы Корпуса отражают состояние болгарского языка (в основном в письменной форме) с середины 20 века (1945 г.) до настоящего времени.[4]

Он также включает параллельные корпуса различного размера для 47 иностранных языков.[5]

BulNC снабжен аннотациями на различных лингвистических уровнях.[6]

Приложения

Болгарский национальный корпус позволяет использовать ряд приложений в различных лингвистических областях: в компьютерной лингвистике; в лексикографии; в рамках теоретических исследований конкретных языковых явлений; для наблюдения за характеристиками отдельных языковых доменов; для получения образцовых предложений для обучения на болгарском языке и т. д.

Некоторые из наиболее конкретных приложений Корпуса перечислены ниже:

  • Выделение конкретных или общих подкорпусов по определенным критериям (тема, автор, год / период публикации, источник и т. Д.), Которые могут использоваться в качестве обучающих корпусов для ряда приложений - грамматических и семантических тегов, среди прочего, как а также для других исследовательских целей.
  • Наблюдения за частотой употребления слов или языковых конструкций, составление частотных списков и т. Д.
  • Поиск в Корпусе экземпляров конкретных языковых явлений, лексикографических примеров или в образовательных целях при обучении болгарскому языку (доступно для использования через Интернет).

Доступ

Доступ к BulNC бесплатный для общего пользования.[требуется разъяснение ] и включает:

Смотрите также

Ссылки

Рекомендации

  1. ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Росица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, том. 0, No. 1, pp. 65-110. ISSN  2299-8470. [1][постоянная мертвая ссылка ]
  2. ^ Светла Коева, Св. Лесева, И. Стоянова, Э. Тарпоманова, М. Тодорова (2006) «Болгарские корпуса с тегами». В: Материалы пятой Международной конференции «Формальные подходы к южнославянским и балканским языкам», 18–20 октября 2006 г., София, Болгария, стр. 78-86.
  3. ^ Коева Св., Благоева Д., Колковска С. (2010) «Проект Болгарского национального корпуса». В: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.
  4. ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Росица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, том. 0, No. 1, pp. 65-110. ISSN  2299-8470. [2][постоянная мертвая ссылка ]
  5. ^ Коева, С., Декова, Р., Стоянова, И., Ризов, Б., Генов, А. (2012) «Болгарский параллельный корпус X-языков». В: Материалы восьмой Международной конференции по языковым ресурсам и оценке (LREC’12).
  6. ^ Коева, Св., Генов, А. (2011) «Цепь обработки болгарского языка». В: Материалы семинара «Интеграция многоязычных ресурсов и инструментов в веб-приложения», Гамбург.