Коричневый корпус - Brown Corpus

В Стандартный корпус современного американского английского языка Университета Брауна (или просто Коричневый корпус) представляет собой электронную коллекцию образцов текста американского английского языка, первой крупной структурированной корпус разных жанров. Этот корпус впервые установил планку для научного изучения частоты и распределения категорий слов в повседневном использовании языка. Составленный Генри Кучера и В. Нельсон Фрэнсис в Брауновский университет, в Род-Айленд, это общий языковой корпус, содержащий 500 образцов английского языка общим объемом около миллиона слов, составленный из работ, опубликованных в США в 1961 году.

История

В 1967 году Кучера и Фрэнсис опубликовали свою классическую работу. Вычислительный анализ современного американского английского, который предоставил базовую статистику о том, что сегодня известно как Коричневый корпус.[1]

«Коричневый корпус» представлял собой тщательно подобранную подборку современного американского английского языка, насчитывающую около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли ее множеству компьютерных анализов, на основе которых они составили богатый и разнообразный труд, сочетающий элементы лингвистики, психологии, статистики и социологии. Он очень широко использовался в компьютерная лингвистика, и многие годы был одним из самых цитируемых ресурсов в этой области.[2]

Вскоре после публикации первого лексикостатистический анализ, Бостон издатель Houghton-Mifflin обратился к Kučera с просьбой предоставить трехстрочную базу цитирования объемом в миллион слов для своего нового Словарь американского наследия. Этот новаторский словарь, впервые появившийся в 1969 году, был первым словарем, составленным с использованием корпусной лингвистики для определения частоты слов и другой информации.

Первоначальный Коричневый Корпус содержал только сами слова плюс идентификатор местоположения для каждого из них. В течение следующих нескольких лет были применены теги части речи. Программа тегов Грина и Рубина (см. часть тегов речи ) значительно помог в этом, но высокая частота ошибок означала, что требовалась обширная ручная корректура.

Маркированный Коричневый Корпус использовал выборку из около 80 частей речи, а также специальные индикаторы для сложных форм, сокращений, иностранных слов и некоторых других явлений и сформировал модель для многих более поздних корпусов, таких как Ланкастер-Осло-Берген Корпус (Британский английский с начала 1990-х) и Freiburg-Brown Corpus of American English (FROWN) (американский английский с начала 1990-х).[3][4] Пометка корпуса позволила провести более сложный статистический анализ, такой как работа, запрограммированная Эндрю Маки и задокументированная в книгах по грамматике английского языка.[5]

Один интересный результат заключается в том, что даже для довольно больших выборок графическое отображение слов в порядке убывания частоты появления показывает гипербола: частота п-е по частоте слово примерно пропорционально 1 /п. Таким образом, «the» составляет почти 7% Brown Corpus, «к» и «из» - более чем еще по 3% каждое; в то время как около половины общего словарного запаса, составляющего около 50 000 слов, являются hapax legomen: слова, встречающиеся в корпусе только один раз.[6] Эта простая зависимость ранга от частоты была отмечена необычайным разнообразием явлений: Джордж Кингсли Зипф (например, см. его Психобиология языка) и известен как Закон Ципфа.

Хотя Brown Corpus был пионером в области корпусной лингвистики, к настоящему времени типичные корпуса (такие как Корпус современного американского английского, то Британский национальный корпус или Международный корпус английского языка ), как правило, намного больше, порядка 100 миллионов слов.

Распределение образцов

Корпус состоит из 500 семплов, распределенных по 15 жанрам, примерно пропорционально количеству, опубликованному в 1961 году в каждом из этих жанров. Все отобранные работы были опубликованы в 1961 году; насколько можно было определить, они были первый опубликованы тогда, и были написаны носителями американского английского языка.

Каждая выборка начиналась со случайной границы предложения в статье или другой выбранной единице и продолжалась до границы первого предложения после 2000 слов. В очень немногих случаях неправильный подсчет приводил к тому, что образцы составляли чуть менее 2000 слов.

Исходные данные вводились только в верхнем регистре. пуансон машины; заглавные буквы были обозначены предшествующей звездочкой, и различные специальные элементы, такие как формулы, также имели специальные коды.

Первоначально корпус (1961 г.) содержал 1014312 слов, взятых из 15 категорий текста:

  • А. ПРЕССА: Репортаж (44 текстов)
    • Политическая
    • Спортивный
    • Общество
    • Spot Новости
    • Финансовые
    • Культурный
  • Б. ПРЕССА: От редакции (27 текстов)
    • Institutional Daily
    • Личное
    • Письма в редакцию
  • С. ПРЕСС: Обзоры (17 текстов)
    • театр
    • книги
    • Музыка
    • танцевать
  • D. РЕЛИГИЯ (17 текстов)
    • Книги
    • Периодические издания
    • Трактаты
  • E. НАВЫКИ И ХОББИ (36 текстов)
    • Книги
    • Периодические издания
  • F. ПОПУЛЯРНЫЕ ЗНАНИЯ (48 текстов)
    • Книги
    • Периодические издания
  • Г. БЕЛЛЕС-ПИСЬМА - Биография, Мемуары и др. (75 текстов)
    • Книги
    • Периодические издания
  • H. РАЗНОЕ: Правительство и внутренние органы США (30 текстов)
    • Правительственные документы
    • Отчеты Фонда
    • Отраслевые отчеты
    • Каталог колледжей
    • Орган Промышленного Дома
  • J. ИЗУЧИЛ (80 текстов)
    • Естественные науки
    • Лекарство
    • Математика
    • Социальные и поведенческие науки
    • Политология, право, образование
    • Гуманитарные науки
    • Технологии и инженерия
  • К. ФИКЦИЯ: Общие (29 текстов)
    • Романы
    • Короткие истории
  • L. FICTION: Мистика и детективы (24 текстов)
    • Романы
    • Короткие истории
  • М. ФИКЦИЯ: Наука (6 текстов)
    • Романы
    • Короткие истории
  • N. FICTION: Приключения и вестерн (29 текстов)
    • Романы
    • Короткие истории
  • P. FICTION: Romance and Love Story (29 текстов)
    • Романы
    • Короткие истории
  • R. ЮМОР (9 текстов)
    • Романы
    • Очерки и др.

Используемые теги части речи

ТегОпределение
.приговор (. ; ? *)
(левая часть
)правая рука
*нет, нет
--бросаться
,запятая
:двоеточие
ABLпре-квалификатор (скорее, скорее)
ABNпре-квантификатор (половина, все)
ABXпре-квантификатор (оба)
APпост-определитель (многие, несколько, следующий)
Встатья (a, the, no)
БЫТЬбыть
КРОВАТЬмы
БЭДЗбыл
ОЧЕНЬ ПРОШУсуществование
БЭМявляюсь
БЕНбыл
BERесть, искусство
BBBявляется
CCкоординирующий союз (и, или)
CDколичественное число (один, два, 2 и т. д.)
CSподчинительный союз (если, хотя)
ДЕЛАТЬделать
DODсделал
ДОЗделает
DTсингулярный определитель / квантор (это, это)
DTIопределитель / квантификатор единственного или множественного числа (некоторые, любые)
DTSопределитель множественного числа (эти, те)
DTXопределитель / двойная конъюнкция (либо)
БЫВШИЙэкзистенциальный там
FWиностранное слово (через дефис перед обычным тегом)
HLслово в заголовке (через дефис после обычного тега)
HVимеют
HVDимел (прошедшее время)
HVGимея
HVNбыло (причастие прошедшего времени)
HVZимеет
Впредлог
JJприлагательное
JJRсравнительное прилагательное
JJSсемантически превосходная степень прилагательного (главный, верхний)
JJTморфологически превосходная степень прилагательного (самый большой)
MDмодальный вспомогательный (может, должен, будет)
NCпроцитированное слово (через дефис после обычного тега)
NNединственное или неисчислимое существительное
NN $притяжательное единственное число
NNSсуществительное во множественном числе
NNS $притяжательное существительное во множественном числе
НПимя собственное или часть именной фразы
NP $притяжательное имя собственное
NPSсуществительное во множественном числе
NPS $притяжательное множественное число имя собственное
NRнаречное существительное (дом, сегодня, запад)
NRSсуществительное множественного числа
ODпорядковая цифра (первая, вторая)
PNименное местоимение (все, ничего)
PN $притяжательное именное местоимение
PP $притяжательное личное местоимение (мое, наше)
PP $$второе (именное) притяжательное местоимение (мое, наше)
PPLединственное возвратное / интенсивное личное местоимение (я)
PPLSмножественное число возвратных / интенсивных личных местоимений (мы сами)
PPOобъективное личное местоимение (я, он, это, они)
PPS3-й. местоимение именительного падежа единственного числа (он, она, оно, один)
PPSSдругое именительное падежное личное местоимение (я, мы, они, ты)
QLквалификатор (очень, честно)
QLPпост-квалификатор (действительно)
РБнаречие
RBRсравнительное наречие
RBTнаречие в превосходной степени
RNименное наречие (здесь, в помещении)
RPнаречие / частица (около, выкл, вверх)
TLслово, встречающееся в заголовке (через дефис после обычного тега)
Кмаркер инфинитива для
ЭМ-М-Ммеждометие, восклицание
VBглагол, основная форма
VBDглагол, прошедшее время
VBGглагол, причастие настоящего времени / герундий
VBNглагол, причастие прошедшего времени
VBPглагол, не 3-е лицо, единственное число, настоящее
ВБЗглагол, 3-й. исключительный подарок
WDTWH- определитель (что, что)
WP $притяжательный wh- местоимение (чей)
WPOобъективный wh- местоимение (кого, что, что)
WPSименительный падеж wh- местоимение (кто, что, что)
WQLwh- квалификатор (как)
WRBwh- наречие (как, где, когда)

Обратите внимание, что некоторые версии помеченного корпуса Brown содержат комбинированные теги. Например, слово «хочу» помечено как VB + TO, поскольку это сокращенная форма двух слов: want / VB и to / TO. Также некоторые теги могут быть инвертированы, например, «не» будет помечено как «BER *», где * означает отрицание. Кроме того, теги могут иметь перенос: тег -HL переносится к обычным тегам слов в заголовках. Тег -TL переносится через дефис к обычным тегам слов в заголовках. Перенос -NC означает подчеркнул слово. Иногда тег имеет префикс FW-, что означает иностранное слово.[нужна цитата ]

Смотрите также

Рекомендации

  1. ^ Фрэнсис, В. Нельсон и Генри Кучера. 1967. Вычислительный анализ современного американского английского. Провиденс, Род-Айленд: Brown University Press.
  2. ^ Фрэнсис, В. Нельсон и Генри Кучера. 1979. BROWN CORPUS MANUAL: Руководство по информации, сопровождающей стандартный корпус современного редактируемого американского английского языка для использования с цифровыми компьютерами. http://icame.uib.no/brown/bcm.html.
  3. ^ Хундт, Марианна, Андреа Санд и Райнер Симунд. 1998. Справочник по информации, сопровождающей корпус американского английского языка Фрайбург-Браун (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
  4. ^ Пиявка, Джеффри и Николас Смит. 2005. Расширение возможностей корпусных исследований английского языка в двадцатом веке: приквел к LOB и FLOB. Журнал ICAME 29. 83–98.
  5. ^ Уинтроп Нельсон Фрэнсис и Генри Кучера. 1983. Частотный анализ использования английского языка: лексика и грамматика, Houghton Mifflin.
  6. ^ Кирстен Мальмкьер, Энциклопедия лингвистики, 2-е изд., Рутледж, 2002 г., ISBN  0-415-22210-9, п. 87.

внешняя ссылка