Русский Национальный Корпус - Russian National Corpus
В Русский Национальный Корпус (Официальное английское название; русское название Национальный корпус русского языка, лит. Национальный корпус русского языка, но в качестве официального английского варианта используется Русский Национальный корпус) является корпус из русский язык который был частично доступен через интерфейс запросов в Интернете с 29 апреля 2004 года. Он создается Институтом русского языка, Российская Академия Наук.
В настоящее время он содержит более 600 миллионов словоформ.[1] которые автоматически лемматизированный и POS - / грамм-отмечен, т.е. все возможные морфологический ему приписываются анализы для каждой орфографической формы. Доступны для поиска лемматы, POS, грамматические элементы и их комбинации. Кроме того, в подкорпусе 6 миллионов словоформ с вручную разрешенными омонимия.
Подкорпус с разрешенным морфологическим омонимия также автоматически подчеркнутый. Весь корпус снабжен тегами с возможностью поиска по лексическая семантика (LS),[2] включая морфосемантические подклассы POS (существительное собственное, возвратное местоимение и т. д.), собственно характеристики LS (тематический класс, причинность, оценка), производные (уменьшительное, наречие, образованное от прилагательного и т. д.).
RNC включает также следующие подкорпорации:
- а берега дерева из синтаксический зависимости (в основном основанные на Игорь Мельчук с Теория смыслового текста )
- Английский⇔ Русский, Немецкий Русский, Украинский⇔ Русский и Белорусский⇔ Русский параллельные корпуса;
- большой (100+ миллионов слов) отдельный корпус современных газет (2001–2011 гг.);
- корпус русского языка поэзия, где рифмуются слова и поэтические просодия (включая счетчик, строфы и т. д.) дополнительно маркируются;
- корпус русского языка диалекты с пометкой грамматики определенного диалекта;
- мультимедийный корпус с размеченными фрагментами русскоязычных фильмов с возможностью поиска;
- корпус истории русского стресс
- образовательный субкорпус, отражающий школьные стандарты.
Все тексты имеют метки с метатекстовой информацией - автор, дата его рождения, дата создания, размер текста, жанры текста (художественная литература, детектив, газетная статья и т. Д.); все эти категории доступны для просмотра и поиска по отдельности. Можно определить подкорпус пользователя для поиска комбинаций лемм / POS-грамм / семантических тегов только в этом подмножестве.
Смотрите также
использованная литература
- ^ http://ruscorpora.ru/
- ^ Apresjan, Ju .; Богуславский, И .; Иомдин, Б .; Иомдин, Л .; Санников, А .; Сизов, В. (2006). Корпус русского языка с синтаксическими и семантическими тегами: состояние дел и перспективы. Труды LREC. Генуя, Италия. С. 1378–1381. CiteSeerX 10.1.1.111.8165.