Корпус современного американского английского - Corpus of Contemporary American English
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения) |
В Корпус современного американского английского (COCA) составляет более 560 миллионов слов корпус из Американский английский. Он был создан Марк Дэвис, Профессор Корпусная лингвистика в Университет Бригама Янга (BYU).[1]
Содержание
Корпус насчитывает более 1 миллиарда[2] слов из 220 225 текстов, в том числе по 20 миллионов слов за период с 1990 по 2017 год. Последнее обновление было сделано в декабре 2017 года. Ежемесячно этот корпус используют примерно десятки тысяч людей,[нужна цитата ] что может сделать его наиболее широко используемым "структурированным" корпусом, доступным в настоящее время.[нужна цитата ]
На каждый год корпус равномерно делится на следующие пять жанров: разговорная, художественная, популярные журналы, газеты и академические журналы. Тексты взяты из разных источников:
- Разговорный: (85 миллионов слов) Стенограммы незашифрованного разговора из почти 150 различных теле- и радиопрограмм.
- Художественная литература: (81 миллион слов) рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
- Популярные журналы: (86 миллионов слов) Около 100 различных журналов из различных областей, таких как новости, здоровье, дом и сад, женские, финансовые, религиозные и спортивные.
- Газеты: (81 миллион слов) Десять газет со всех концов США, с текстом из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
- Академические журналы: (81 миллион слов) около 100 различных рецензируемых журналов. Они были выбраны для охвата всего диапазона Система классификации Библиотеки Конгресса.
Доступность
В корпусе можно выполнять поиск через веб-интерфейс,[3] с ограничением количества запросов в день, а доступ с менее ограниченным доступом предоставляется по цене.[4]Полный текст корпуса доступен за дополнительную плату.[5]
Запросы
- Интерфейс такой же, как интерфейс BYU-BNC для 100 миллионов слов. Британский национальный корпус, корпус журнала TIME из 100 миллионов слов и корпус из 400 миллионов слов * Исторический * американский английский (COHA), 1810–2000-е гг. (см. ссылки ниже)
- Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. Ниже) и настраиваемым спискам (см. Ниже)
- Корпус помечен Когти, одинаковый часть речи теггер, который использовался для BNC и корпуса TIME
- Списки диаграмм (итоговые значения для всех подходящих форм в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота для каждой подходящей формы в каждом жанре или году)
- Полный поиск словосочетаний (до десяти слов слева и справа от слова узла)
- Повторно сортируемые соответствия, показывающие наиболее распространенные слова / строки слева и справа от искомого слова
- Сравнение жанров или периодов времени (например, словосочетания «стул» в художественной или академической литературе, существительные с «разорвать [N]» в газетах или академических изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые встречаются чаще в 2005–2010 гг. ранее)
- Одноэтапное сравнение словосочетаний связанных слов для изучения семантических или культурных различий между словами (например, сравнение словосочетаний «маленький», «маленький», «крошечный», «миниатюрный» или лилипутский или «демократы» и «республиканцы» , или "мужчины" и "женщины", или "ограбить" против "украсть")
- Пользователи могут включать семантическую информацию из тезауруса в 60 000 статей непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимов слова «сильный», встречающихся в художественной литературе, но не академических, синонимов слова «чистый» + существительное (« мыть пол ',' мыть посуду '))
- Пользователи также могут создавать свои собственные «настроенные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определяемой пользователем части речи)
- Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.
Связанный
Корпус Gloбал Web-бусложненный английский (GloWbE; произносится «глобус») содержит около 1,9 миллиарда слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет выполнять многие типы поиска, которые в противном случае были бы невозможны. В дополнение к этому онлайн-интерфейсу вы также можете загружать полнотекстовые данные из корпуса.
он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE относится ко многим другим корпусам английского языка.[6]
Смотрите также
- Американский национальный корпус
- Британский национальный корпус
- Банк английского языка
- Коричневый корпус
Библиография
- Дэвис, Марк (2010). «Корпус современного американского английского языка как первый надежный корпус английского языка». Литературные и лингвистические вычисления. 25 (4): 447–65. Дои:10.1093 / llc / fqq018.
- Беннетт, Гена Р. (2010). Использование корпусов в классе изучения языков: корпусная лингвистика для учителей. Анн-Арбор, Мичиган: Университет Мичигана. п. 144. ISBN 978-0-472-03385-0.
- Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпусов». Международный журнал корпусной лингвистики. 15 (3): 405–11. Дои:10.1075 / ijcl.15.3.13dav.
- Андерсон, Венди; Корбетт, Джон (2009), Изучение английского языка с помощью онлайн-корпуса, Пэлгрейв Макмиллан, стр. 205, ISBN 978-0-230-55140-4
- Дэвис, Марк (2009). «Корпус из более чем 385 миллионов слов современного американского английского (с 1990 г. по настоящее время)». Международный журнал корпусной лингвистики. Издательская компания Джона Бенджамина. 14 (2): 159–190(32). Дои:10.1075 / ijcl.14.2.02dav.
- Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка. Издательство Эдинбургского университета. ISBN 978-0-7486-2615-1.
- Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для больших корпусов: скорость, сложные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики. Издательская компания Джона Бенджамина. 10 (3): 307–334(28). Дои:10.1075 / ijcl.10.3.02dav.
Рекомендации
- ^ Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского: предыстория и история». ВАРИЕНГ. Получено 2011-10-13.
- ^ [1] официальный сайт COCA
- ^ "Корпус современного американского английского". Корпус современного американского английского. Получено 20 июля 2017.
- ^ "Корпорация BYU: Премиум". BYU корпус. Получено 20 июля 2017.
- ^ «Данные корпуса: покупка». Получено 20 июля 2017.
- ^ "Корпус глобального английского языка в Интернете". www.english-corpora.org. Получено 2019-12-18.