Болгарский национальный корпус - Bulgarian National Corpus
Эта статья может чрезмерно полагаться на источники слишком тесно связан с предметом, потенциально препятствуя публикации статьи проверяемый и нейтральный.Май 2015 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В Болгарский национальный корпус (BulNC) - крупный представитель корпус болгарского языка, включающего около 200 000 текстов и более 1 миллиарда слов.[1]
История
Болгарский национальный корпус создан в Институте болгарского языка им. Проф. Л. Андрейчин »научными сотрудниками кафедры компьютерной лингвистики и кафедры болгарской лексикологии и лексикографии. BulNC включает в себя несколько отдельных электронных корпусов, разработанных в период 2001-2009 годов для целей двух отделов. Корпус постоянно пополняется новыми текстами.[2][3]
Содержание
Болгарский национальный корпус состоит из одноязычной (болгарской) части и 47 параллельных корпусов. Болгарская часть включает около 1,2 миллиарда слов в более чем 240 000 текстовых образцов. Материалы Корпуса отражают состояние болгарского языка (в основном в письменной форме) с середины 20 века (1945 г.) до настоящего времени.[4]
Он также включает параллельные корпуса различного размера для 47 иностранных языков.[5]
BulNC снабжен аннотациями на различных лингвистических уровнях.[6]
Приложения
Болгарский национальный корпус позволяет использовать ряд приложений в различных лингвистических областях: в компьютерной лингвистике; в лексикографии; в рамках теоретических исследований конкретных языковых явлений; для наблюдения за характеристиками отдельных языковых доменов; для получения образцовых предложений для обучения на болгарском языке и т. д.
Некоторые из наиболее конкретных приложений Корпуса перечислены ниже:
- Выделение конкретных или общих подкорпусов по определенным критериям (тема, автор, год / период публикации, источник и т. Д.), Которые могут использоваться в качестве обучающих корпусов для ряда приложений - грамматических и семантических тегов, среди прочего, как а также для других исследовательских целей.
- Наблюдения за частотой употребления слов или языковых конструкций, составление частотных списков и т. Д.
- Поиск в Корпусе экземпляров конкретных языковых явлений, лексикографических примеров или в образовательных целях при обучении болгарскому языку (доступно для использования через Интернет).
Доступ
Доступ к BulNC бесплатный для общего пользования.[требуется разъяснение ] и включает:
- Доступ к Поисковая система BulNC
- Некоторые подкорпорации доступны для скачать
Смотрите также
Ссылки
Рекомендации
- ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Росица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, том. 0, No. 1, pp. 65-110. ISSN 2299-8470. [1][постоянная мертвая ссылка ]
- ^ Светла Коева, Св. Лесева, И. Стоянова, Э. Тарпоманова, М. Тодорова (2006) «Болгарские корпуса с тегами». В: Материалы пятой Международной конференции «Формальные подходы к южнославянским и балканским языкам», 18–20 октября 2006 г., София, Болгария, стр. 78-86.
- ^ Коева Св., Благоева Д., Колковска С. (2010) «Проект Болгарского национального корпуса». В: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.
- ^ Коева, Светла, Ивелина Стоянова, Светлозара Лесева, Цветана Димитрова, Росица Декова и Екатерина Тарпоманова (2012) «Болгарский национальный корпус: теория и практика в дизайне корпуса» - Журнал языкового моделирования, 2012, том. 0, No. 1, pp. 65-110. ISSN 2299-8470. [2][постоянная мертвая ссылка ]
- ^ Коева, С., Декова, Р., Стоянова, И., Ризов, Б., Генов, А. (2012) «Болгарский параллельный корпус X-языков». В: Материалы восьмой Международной конференции по языковым ресурсам и оценке (LREC’12).
- ^ Коева, Св., Генов, А. (2011) «Цепь обработки болгарского языка». В: Материалы семинара «Интеграция многоязычных ресурсов и инструментов в веб-приложения», Гамбург.