Русский Национальный Корпус - Russian National Corpus

В Русский Национальный Корпус (Официальное английское название; русское название Национальный корпус русского языка, лит. Национальный корпус русского языка, но в качестве официального английского варианта используется Русский Национальный корпус) является корпус из русский язык который был частично доступен через интерфейс запросов в Интернете с 29 апреля 2004 года. Он создается Институтом русского языка, Российская Академия Наук.

В настоящее время он содержит более 600 миллионов словоформ.^[1] которые автоматически лемматизированный и POS - / грамм-отмечен, т.е. все возможные морфологический ему приписываются анализы для каждой орфографической формы. Доступны для поиска лемматы, POS, грамматические элементы и их комбинации. Кроме того, в подкорпусе 6 миллионов словоформ с вручную разрешенными омонимия.

Подкорпус с разрешенным морфологическим омонимия также автоматически подчеркнутый. Весь корпус снабжен тегами с возможностью поиска по лексическая семантика (LS),^[2] включая морфосемантические подклассы POS (существительное собственное, возвратное местоимение и т. д.), собственно характеристики LS (тематический класс, причинность, оценка), производные (уменьшительное, наречие, образованное от прилагательного и т. д.).

RNC включает также следующие подкорпорации:

а берега дерева из синтаксический зависимости (в основном основанные на Игорь Мельчук с Теория смыслового текста )
Английский⇔ Русский, Немецкий Русский, Украинский⇔ Русский и Белорусский⇔ Русский параллельные корпуса;
большой (100+ миллионов слов) отдельный корпус современных газет (2001–2011 гг.);
корпус русского языка поэзия, где рифмуются слова и поэтические просодия (включая счетчик, строфы и т. д.) дополнительно маркируются;
корпус русского языка диалекты с пометкой грамматики определенного диалекта;
мультимедийный корпус с размеченными фрагментами русскоязычных фильмов с возможностью поиска;
корпус истории русского стресс
образовательный субкорпус, отражающий школьные стандарты.

Все тексты имеют метки с метатекстовой информацией - автор, дата его рождения, дата создания, размер текста, жанры текста (художественная литература, детектив, газетная статья и т. Д.); все эти категории доступны для просмотра и поиска по отдельности. Можно определить подкорпус пользователя для поиска комбинаций лемм / POS-грамм / семантических тегов только в этом подмножестве.

Смотрите также

Общий интернет-корпус русского языка

использованная литература

^ http://ruscorpora.ru/
^ Apresjan, Ju .; Богуславский, И .; Иомдин, Б .; Иомдин, Л .; Санников, А .; Сизов, В. (2006). Корпус русского языка с синтаксическими и семантическими тегами: состояние дел и перспективы. Труды LREC. Генуя, Италия. С. 1378–1381. CiteSeerX 10.1.1.111.8165.

внешние ссылки

Русский Национальный корпус

[1] ttp://ruscorpora.ru/

[2] Apresjan, Ju .; Богуславский, И .; Иомдин, Б .; Иомдин, Л .; Санников, А .; Сизов, В. (2006). Корпус русского языка с синтаксическими и семантическими тегами: состояние дел и перспективы. Труды LREC. Генуя, Италия. С. 1378–1381. CiteSeerX 10.1.1.111.8165.

[1]

[2]

Корпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine