Текстовый корпус - Text corpus

В лингвистика, а корпус (множественное число корпус) или текстовый корпус это языковой ресурс состоящий из большого и структурированного набора текстов (в настоящее время обычно хранящихся и обрабатываемых в электронном виде). В корпусная лингвистика, они используются для статистического анализа и проверка гипотезы, проверка вхождений или проверка лингвистических правил в пределах определенной языковой территории.

Обзор

Корпус может содержать тексты на одном языке (одноязычный корпус) или текстовые данные на нескольких языках (многоязычный корпус).

Чтобы сделать корпуса более полезными для лингвистических исследований, они часто подвергаются процессу, известному как аннотация. Пример аннотирования корпуса: теги части речи, или POS-теги, в котором информация о каждой словесной части речи (глагол, существительное, прилагательное и т. д.) добавляется в корпус в виде теги. Другой пример указывает на лемма (основная) форма каждого слова. Когда язык корпуса не является рабочим языком исследователей, которые его используют, подстрочное сглаживание используется, чтобы сделать аннотацию двуязычной.

Некоторые корпуса имеют дополнительные структурированный уровни применяемого анализа. В частности, ряд меньших корпусов может быть полностью разбирается. Такие корпуса обычно называют Берега деревьев или Разобранные корпуса. Сложность обеспечения того, чтобы весь корпус был полностью и последовательно аннотирован, означает, что эти корпуса обычно меньше по размеру и содержат от одного до трех миллионов слов. Возможны другие уровни лингвистического структурированного анализа, включая аннотации для морфология, семантика и прагматика.

Приложения

Корпуса - это основная база знаний в корпусная лингвистика. Другие известные области применения включают:

Языковые технологии, обработка естественного языка, компьютерная лингвистика
- Анализ и обработка различных типов корпусов также являются предметом большой работы в компьютерная лингвистика, распознавание речи и машинный перевод, где они часто используются для создания скрытые марковские модели для части тегов речи и других целей. Корпуса и списки частот полученные из них полезны для языковое обучение. Корпуса можно рассматривать как разновидность письменный помощник на иностранном языке поскольку контекстуализированные грамматические знания, приобретенные пользователями неродных языков через знакомство с аутентичными текстами в корпусах, позволяют учащимся понять способ формирования предложений на изучаемом языке, обеспечивая эффективное письмо.^[1]

Машинный перевод
- Многоязычные корпуса, специально отформатированные для параллельного сравнения, называются выровненные параллельные корпуса. Есть два основных типа параллельные корпуса которые содержат тексты на двух языках. В корпус переводов, тексты на одном языке - это переводы текстов на другой язык. В сопоставимый корпус, тексты однотипны и охватывают одно и то же содержание, но не являются переводами друг друга.^[2] Чтобы использовать параллельный текст, предварительным условием анализа является некое выравнивание текста, определяющее эквивалентные текстовые сегменты (фразы или предложения). Машинный перевод Алгоритмы перевода между двумя языками часто обучаются с использованием параллельных фрагментов, состоящих из корпуса первого языка и корпуса второго языка, который представляет собой поэлементный перевод корпуса первого языка.^[3]
Филологии
- Корпуса текстов также используются при изучении исторические документы, например, в попытках расшифровать древние письменности, или в Библейская стипендия. Некоторые археологические корпуса могут быть настолько короткими, что позволяют делать снимки во времени. Один из самых коротких корпусов по времени может составлять 15–30 лет. Буквы Амарны тексты (1350 г. до н.э. ). В корпус древнего города (например, "Кюльтепе Тексты Турции) могут проходить через серию корпусов, определяемых датами их нахождения.

Некоторые известные текстовые корпуса

Смотрите также

использованная литература

^ Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня. Журнал написания на втором языке, 13(4), 257–283. Проверено 21 марта 2012 года.
^ Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки параллельных текстовых корпусов». Достижения в интеллектуальных системах и вычислениях. Springer. 275: 107–114. arXiv:1509.09090. Дои:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
^ Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту. Спрингер: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.

внешние ссылки

ACL SIGLEX Ссылки на ресурсы: текстовые корпуса
Развитие лингвистических корпусов: руководство по передовой практике
Бесплатные образцы (не бесплатно), веб-корпуса (45-425 миллионов слов каждый): американский (COCA, COHA, TIME), британский (BNC), испанский, португальский
Интеркорп Создание синхронных параллельных корпусов языков, преподаваемых на факультете искусств Карлова университета.
Sketch Engine: открытый корпус со свободным доступом
TS Corpus - Турецкий корпус, свободно доступный для академических исследований.
Turkish National Corpus - универсальный корпус для современного турецкого языка.
Корпус политических выступлений, общедоступный с выступлениями из США, Гонконга, Тайваня и Китая, предоставленных Библиотека Гонконгского баптистского университета
Русский Национальный Корпус

[Yoon-1] Юн, Х., и Хирвела, А. (2004). Отношение студентов ESL к использованию корпуса в письме второго уровня. Журнал написания на втором языке, 13(4), 257–283. Проверено 21 марта 2012 года.

[2] Wołk, K .; Марасек, К. (7 апреля 2014 г.). «Метод выравнивания на основе значений предложений для подготовки параллельных текстовых корпусов». Достижения в интеллектуальных системах и вычислениях. Springer. 275: 107–114. arXiv:1509.09090. Дои:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.

[3] Wołk, K .; Марасек, К. (2015). «Настроенный параллельный анализ данных с ускорением на GPU от сопоставимых корпусов». Конспект лекций по искусственному интеллекту. Спрингер: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.

[1]

[2]

[3]

Обработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Обучение онтологии Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерная обзор	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Подбор синтаксиса
Естественный язык пользовательский интерфейс	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс