Русский Национальный Корпус - Russian National Corpus

В Русский Национальный Корпус (Официальное английское название; русское название Национальный корпус русского языка, лит. Национальный корпус русского языка, но в качестве официального английского варианта используется Русский Национальный корпус) является корпус из русский язык который был частично доступен через интерфейс запросов в Интернете с 29 апреля 2004 года. Он создается Институтом русского языка, Российская Академия Наук.

В настоящее время он содержит более 600 миллионов словоформ.[1] которые автоматически лемматизированный и POS - / грамм-отмечен, т.е. все возможные морфологический ему приписываются анализы для каждой орфографической формы. Доступны для поиска лемматы, POS, грамматические элементы и их комбинации. Кроме того, в подкорпусе 6 миллионов словоформ с вручную разрешенными омонимия.

Подкорпус с разрешенным морфологическим омонимия также автоматически подчеркнутый. Весь корпус снабжен тегами с возможностью поиска по лексическая семантика (LS),[2] включая морфосемантические подклассы POS (существительное собственное, возвратное местоимение и т. д.), собственно характеристики LS (тематический класс, причинность, оценка), производные (уменьшительное, наречие, образованное от прилагательного и т. д.).

RNC включает также следующие подкорпорации:

  • а берега дерева из синтаксический зависимости (в основном основанные на Игорь Мельчук с Теория смыслового текста )
  • Английский⇔ Русский, Немецкий Русский, Украинский⇔ Русский и Белорусский⇔ Русский параллельные корпуса;
  • большой (100+ миллионов слов) отдельный корпус современных газет (2001–2011 гг.);
  • корпус русского языка поэзия, где рифмуются слова и поэтические просодия (включая счетчик, строфы и т. д.) дополнительно маркируются;
  • корпус русского языка диалекты с пометкой грамматики определенного диалекта;
  • мультимедийный корпус с размеченными фрагментами русскоязычных фильмов с возможностью поиска;
  • корпус истории русского стресс
  • образовательный субкорпус, отражающий школьные стандарты.

Все тексты имеют метки с метатекстовой информацией - автор, дата его рождения, дата создания, размер текста, жанры текста (художественная литература, детектив, газетная статья и т. Д.); все эти категории доступны для просмотра и поиска по отдельности. Можно определить подкорпус пользователя для поиска комбинаций лемм / POS-грамм / семантических тегов только в этом подмножестве.

Смотрите также

использованная литература

  1. ^ http://ruscorpora.ru/
  2. ^ Apresjan, Ju .; Богуславский, И .; Иомдин, Б .; Иомдин, Л .; Санников, А .; Сизов, В. (2006). Корпус русского языка с синтаксическими и семантическими тегами: состояние дел и перспективы. Труды LREC. Генуя, Италия. С. 1378–1381. CiteSeerX  10.1.1.111.8165.

внешние ссылки