Британский национальный корпус - British National Corpus

В Британский национальный корпус (BNC) - это 100-миллионное слово текстовый корпус образцов письменной и устной английский из широкого круга источников.[1] Корпус покрывает Британский английский конца ХХ века из самых разных жанры, с намерением сделать это репрезентативным образцом разговорного и письменного британского английского языка того времени.

История

В проекте создания BNC участвовали три издательства (с Oxford University Press как ведущий сотрудник, Longman и У. и Р. Чемберс ), два университета ( Оксфордский университет и Ланкастерский университет ), а Британская библиотека.[2] Создание BNC началось в 1991 году под управлением консорциума BNC, и проект был завершен к 1994 году. После 1994 года не было добавлений новых образцов, но BNC претерпел незначительные изменения перед выпуском второго издания BNC World. (2001) и третье издание BNC XML Edition (2007).[3]

BNC был идеей компьютерных лингвистов, целью которых было корпус современных (на момент построения корпуса), встречающихся в природе язык в виде речь и текст или письмо что может быть проанализировано компьютером. Следовательно, он был составлен как общий корпус, чтобы проложить путь для автоматического поиска и обработки в области корпусная лингвистика. Одним из способов отличить BNC от существующих в то время корпусов было открытие доступа к данным не только для академических исследований, но и для коммерческого и образовательного использования.[4]

Корпус был ограничен только Британский английский, и не распространялся на Мировые английские. Отчасти это произошло потому, что значительная часть стоимости проекта финансировалась британским правительством, которое было логически заинтересовано в собственной подтверждающей документации. языковое разнообразие.[4] Из-за своего потенциально беспрецедентного размера BNC требовал средств также от коммерческих и академических институтов. В свою очередь, BNC данные затем стал доступен для коммерческих и академических исследований.[4]

Описание

BNC - это одноязычный корпус, поскольку он записывает образцы язык использовать в Британский английский только, хотя иногда могут присутствовать слова и фразы из других языков. Это синхронный корпус, как только язык представлено употребление с конца 20 века; BNC не предназначен быть историческим отчетом о развитии Британский английский на протяжении веков.[3] С самого начала те, кто участвовал в сборе письменных данных, стремились сделать BNC сбалансированным корпусом и, следовательно, искали данные на различных носителях.[4]

Компоненты и содержание

Структура BNC

90% BNC - это образцы письменный корпус использовать. Эти образцы были взяты из региональных и национальных газет, опубликованных исследовательских журналов или периодических изданий из различных академических областей, художественной и научно-технической литературы, других опубликованных материалов и неопубликованных материалов, таких как листовки, брошюры, письма, эссе, написанные студентами разного академического уровня. , речи, сценарии и многие другие типы текстов.[5]

Остальные 10% BNC - это образцы устная речь использовать. Они представлены и записаны в виде орфографических транскрипций. В разговорный корпус состоит из двух частей: одна часть демографический, содержащий транскрипции спонтанных естественных разговоры выпускается волонтерами разных возрастных групп, социальных слоев и из разных регионов. Эти разговоры производились в различных ситуациях, включая официальные деловые или правительственные встречи, разговоры в радиошоу и телефонные разговоры.[5] Они должны были учитывать как демографическое распределение разговорного языка, так и лингвистически значимые вариации из-за контекста.[6]

Другая часть включает образцы с учетом контекста, такие как транскрипции записей, сделанных на определенных типах встреч и мероприятий. Все оригинальные записи, расшифрованные для включения в BNC, были депонированы в Звуковой архив Британской библиотеки. Большинство записей находятся в свободном доступе на Фонетическая лаборатория Оксфордского университета.

Подкорпуса и теги

Были выпущены два субкорпуса (подмножества данных BNC): BNC Baby и BNC Sampler. Оба этих субкорпуса можно заказать онлайн через веб-страницу BNC.[7] BNC Baby - это подкорпус BNC, состоящий из четырех наборов выборок, каждый из которых содержит один миллион слов, помеченных, как и в самом BNC. Слова в каждом наборе образцов соответствуют определенному жанр метка. Один набор образцов содержит устную беседу, а другие три набора образцов содержат письменный текст: академическое письмо, вымысел и газеты соответственно.[8] Последняя (третья) редакция выпущена в формате XML.[9] BNC Sampler состоит из двух частей, каждая из которых предназначена для письменных и устных данных; каждая часть содержит миллион слов. Изначально BNC Sampler использовался в проекте, чтобы разработать, как улучшить процесс маркировки для BNC, что в конечном итоге привело к выпуску BNC World edition. На протяжении всего проекта BNC Sampler совершенствовался за счет увеличения опыта и знаний по тегированию, чтобы достичь его текущей формы.[10]

Корпус BNC был помечен для грамматической информации (часть речи ). Система тегов, названная CLAWS, претерпела улучшения, в результате чего появилась последняя система CLAWS4, которая используется для тегирования BNC. CLAWS1 был основан на скрытая марковская модель и при использовании автоматической пометки удалось успешно пометить от 96% до 97% каждого проанализированного текста. CLAWS1 был обновлен до CLAWS2, поскольку отпала необходимость в ручной обработке для подготовки текстов к автоматической пометке. Последняя версия, CLAWS4, включает такие улучшения, как более мощный словесная неоднозначность (WSD) и способность справляться с вариациями орфография и язык разметки. Позднее работа над системой тегов была направлена ​​на повышение успешности автоматической маркировки и сокращение объема работы, необходимой для ручной обработки, при сохранении эффективности и результативности за счет внедрения программного обеспечения, которое заменит некоторую ручную работу.[2][11] Впоследствии для корректирующей функции была представлена ​​новая программа под названием «Template Tagger». Позже были добавлены теги, указывающие на неоднозначность. Ручное тегирование по-прежнему необходимо, поскольку CLAWS4 все еще не может работать с иностранными словами.[12][13]

TEI и доступ

Корпус размечен в соответствии с рекомендациями Инициатива кодирования текста (TEI) и включает полную лингвистическую аннотация и контекстная информация.[14] Чтобы использовать теггер, можно приобрести лицензию на теггер части речи CLAWS4.[15] Кроме того, услуга тегирования предлагается на сайте Ланкастерский университет.[16] Сам BNC можно заказать с личной или институциональной лицензией. Доступная версия - BNC. XML издание, и оно поставляется с Xaira программное обеспечение для поисковых систем. Заказ можно осуществить через сайт BNC.[17] Онлайн менеджер корпуса, BNCweb, был разработан для версии BNC XML. Интерфейс разработан так, чтобы быть простым в использовании, и программа предлагает функции запросов и функции для анализа корпуса. Пользователи могут получать результаты и данные в результате поиска и анализа.[18]

Проблемы с разрешениями

BNC был первым текстовый корпус его размера, чтобы сделать его широко доступным. Это может быть связано со стандартными формами соглашения между правообладателями и Консорциумом, с одной стороны, и между пользователями корпуса и Консорциумом, с другой. Права интеллектуальной собственности от владельцев требовалось согласие со стандартной лицензией, включая готовность включать свои материалы в корпус без каких-либо сборов. Этому расположению, возможно, способствовали оригинальность концепции и известность, связанная с проектом. Однако было непросто сохранить личность участников, не дискредитируя ценность их работы. Любой отчетливый намек на личность участников был в значительной степени удален; альтернативное решение по замене личности участника другим именем обсуждалось, но не было сочтено возможным.[6]

Кроме того, участников ранее просили включить только транскрибированные версии своих речь а не речь сам. Хотя разрешение можно было снова запросить у первоначальных участников, отсутствие успеха в процессе анонимности означало, что будет сложно получить материалы у первоначальных участников. В то же время два фактора усугубляли нежелание правообладателей жертвовать свои материалы: полные тексты должны были быть исключены, и у них не было мотивации для распространения информации с использованием корпуса, тем более что корпус действует на некоммерческой основе. .[6]

Проблемы и ограничения

Категории

К 2001 году в BNC все еще не было категоризации письменных текстов, выходящих за рамки предметной области, и категоризации для устных текстов, кроме как по контексту и демографический или же социально-экономический классы. Например, самые разнообразные художественные тексты (романы, короткие истории, стихи, и сценарии драмы) были включены в BNC, но такие включения были сочтены бесполезными, поскольку исследователи не смогли легко получить поджанры над которым они хотели работать (например, стихи). Потому что это метаданные был опущен в заголовках файлов и во всей документации BNC, не было возможности узнать, действительно ли «образный» текст был взят из романа, рассказа, драматического сценария или сборника стихов, если только название действительно не включало такие слова, как «роман» или «стихотворение»).[19]

С выпуском в 2002 году новой версии, BNC World Edition, BNC попытался решить эту проблему. Помимо домена, теперь существует 70 категорий по жанрам как для устных, так и для письменных данных, и поэтому исследователи теперь могут извлекать тексты по жанрам. Однако даже после этих добавлений реализация по-прежнему остается сложной задачей, поскольку присвоение жанра или поджанра тексту непросто. Разделения для устных данных менее четкие, чем для письменных, поскольку было больше различий в тематике и исполнении. Также всегда будут возможные подмножества жанров каждого поджанра. Степень разделения жанров предварительно определяется по умолчанию, но исследователи могут сделать подразделения более общими или конкретными в соответствии со своими потребностями. Категоризация также является проблемой, поскольку определенные тексты, хотя и считаются принадлежащими к междисциплинарному жанру, например лингвистике, включают контент, который впоследствии классифицируется либо по категориям искусства, либо по науке в зависимости от характера их содержания.[20]

Классификация и дискурс

Некоторые тексты были отнесены к неправильной категории, обычно из-за вводящего в заблуждение названия. Пользователи не всегда могут полагаться на названия файлов как на указание на их реальное содержание: например, многие тексты со словом «лекция» в названии на самом деле являются обсуждениями в классе или учебными семинарами с участием очень небольшой группы людей, или были популярными лекциями (адресованными для широкой аудитории, а не для студентов вузов).[19] Одна из причин заключается в том, что метки жанра и поджанра могут быть присвоены только большинству текстов в категории. Внутри жанров есть поджанры, и содержание каждого текста может быть неоднородным и может охватывать несколько поджанров.[20] Кроме того, производственное давление в сочетании с недостаточностью информации привело к поспешным решениям, что привело к неточности и непоследовательности в записях.[6]

Соотношение письменного и устного материала в BNC составляет 10: 1, что делает устный материал недопредставленным. Это связано с тем, что стоимость сбора и расшифровки одного миллиона слов естественной речи как минимум в 10 раз выше, чем стоимость добавления еще одного миллиона слов газетного текста. Некоторые лингвисты утверждали, что это свидетельствует о недостатке корпуса, поскольку речь и письмо одинаково важны в языке.[6] BNC не идеален для изучения многих особенностей устного дискурса, поскольку большинство его расшифровок орфографический. Паралингвистический особенности указаны лишь приблизительно.[21]

Ограничения и неправомерное присвоение

Несмотря на то, что это отличный источник лексический информации, BNC действительно может использоваться только для изучения ограниченного набора грамматических шаблонов, особенно тех, которые имеют четкие лексические корреляты. Хотя достаточно легко найти все вхождения слова "наслаждайтесь" и отсортировать их по часть речи категории следующего слова, требуется дополнительная работа, чтобы найти все падежи глаголов, за которыми следует герундий, поскольку индекс SARA BNC не включает часть речи такие категории, как «все глаголы» или «все формы V».[21]

Некоторые лексические корреляты также слишком неоднозначны, чтобы их можно было использовать в запросах: любой поиск ограничительного относительные предложения предоставит пользователю нерелевантные данные, учитывая количество других применений wh-местоимения и этого в языке (не говоря уже о невозможности идентифицировать относительные придаточные предложения с удалением местоимения, как в слове «человек, которого я видел»). Частности семантический и прагматичный категории (сомнения, осведомленность, разногласия, резюме и т. д.) трудно найти по той же причине. Это означает, например, что, хотя можно сравнивать речь мужчин и женщин, нельзя сравнивать речь к женщины и к люди.[21]

Природа BNC как большого смешанного корпуса делает его непригодным для изучения узкоспециализированных текстовых типов или жанров, поскольку любой из них, вероятно, будет неадекватно представлен и не может быть распознан по кодировке. Например, в BNC очень мало деловых писем и служебных встреч, и тем, кто желает изучить их конкретные соглашения, лучше составить небольшой корпус, включающий только тексты этих типов.[21]

Использует

Обучение английскому языку

Существует два основных способа использования материала корпуса в обучении языку.[21]

Во-первых, издатели и исследователи могут использовать образцы корпусов для создания справочников, учебных программ и других связанных инструментов или материалов. Например, BNC использовалась группой японских исследователей в качестве инструмента при создании веб-сайта для изучения английского языка для изучающих Английский для особых целей (ESP).[22] Веб-сайт позволял изучающим английский язык загружать часто слышимые и используемые шаблоны предложений, а затем основывать их собственное использование английского языка на этих шаблонах предложений. BNC служил источником, из которого были извлечены часто используемые выражения. Таким образом, при использовании этого веб-сайта пользователи полагались на эталонные образцы из BNC, чтобы помочь им в изучении английского языка. Такое создание материалов, облегчающих изучение языка, обычно включает использование очень больших корпусов (сравнимых с размером BNC), а также передового программного обеспечения и технологий. Большое количество денег, времени и опыта в области компьютерная лингвистика вкладываются в разработку такого материала для изучения языка.[21]

Во-вторых, анализ корпуса может быть включен непосредственно в среду преподавания и изучения языка. С помощью этого метода учащимся, изучающим язык, предоставляется возможность классифицировать языковые данные из корпуса и впоследствии формировать выводы о моделях и особенностях своего целевого языка на основе их категоризации. Этот метод предполагает больший объем работы со стороны тех, кто занимается языком, и Тим Джонс назвал его «обучением на основе данных». Корпус данных, используемых для обучения на основе данных, относительно меньше, и, следовательно, обобщения, сделанные в отношении целевого языка, могут иметь ограниченную ценность.[21] В общем, BNC полезен как справочный источник для создания и восприятия текста. BNC можно использовать как ссылка источник при изучении использования отдельных слов в различных контекстах, чтобы учащиеся познакомились с различными способами использования определенных слов в подходящих контекстах.[21] Помимо языковой информации, в BNC также можно найти энциклопедическую информацию. Учащиеся, просматривающие данные BNC, также знакомятся с британскими культурными особенностями и стереотипы.[21]

Двуязычные словари, тесты и оценки

BNC был источником более 12 000 слов и фраз, используемых для создания ряда двуязычные словари в Индии в 2012 году, переведя на английский с 22 местных языков. Это было частью более крупного движения, направленного на улучшение образования, сохранение индийского народные языки, и развитие перевод работай.[23] Большой размер BNC предоставляет крупномасштабный ресурс для тестирования программ.[24] Он был использован в качестве испытательного стенда для Инициатива кодирования текста (TEI). BNC также использовался для предоставления 20 миллионов слов для оценки английских систем получения подкатегорий для Senseval инициатива вычислительного анализа смысла.[25]

Исследование

Совместные доказательства из Британского национального корпуса

Hoffman & Lehmann (2000) исследовали механизмы, лежащие в основе способности говорящих манипулировать своим большим количеством словосочетания которые готовы к использованию и могут быть легко расширены грамматически или синтаксически для адаптации к текущей речевой ситуации. Словесные комбинации, встречающиеся с низкой частотой, были извлечены из BNC, чтобы дать некоторое представление о нем.[26]

Коллокационное поведение мужчины и женщины

Пирс (2008) исследовал представленность мужчин и женщин в этом корпусе, используя Sketch Engine. Инструмент корпусного запроса использовался для изучения грамматического поведения существительного. леммы «мужчина» и «женщина» (т.е. существительные «мужчина» / «мужчина» и «женщина» / «женщины»).[27]

Несентенциальные высказывания: исследование корпуса

Фернандес и Гинзбург (2002) исследовали диалог, который включал несмысленные высказывания, используя BNC.[28]

Корпоративный курс EAP для докторантов NNS

Lee & Swales (2006) разработали экспериментальный курс основанного на корпусе английского языка для академических целей (EAP) для докторантов Института английского языка (ELI) Мичиганского университета в США.[29]

Участники использовали три основных корпуса в качестве основы своих исследований: корпус научных статей Хайленда, корпус академического разговорного английского языка штата Мичиган (MICASE) и академические тексты из BNC.[29]

Будущая работа

Морфологическая обработка

В рамках продолжающейся работы по морфологической обработке ключевым направлением Обработка естественного языка (NLP), данные BNC использовались для проверки точности, надежности и скорости вычислительных инструментов, разработанных для облегчения анализа и обработки морфологических маркеров в Британский английский.[30] Вычислительные инструменты включали программу, которая позволяла анализировать флективная морфология на британском английском языке (известный как анализатор) и программа, которая генерирует морфологические метки на основе анализа с помощью анализатора. Данные из BNC также использовались для создания обширного хранилища информации о морфологических маркерах британского английского языка. В частности, примерно 1100 лемм были извлечены из BNC и скомпилированы в контрольный список, с которым морфологический генератор сверялся до глаголы что позволяло удвоение согласных, было точно изменено.[30] Поскольку BNC представляет собой заметную попытку собрать и впоследствии обработать такой большой объем данных, он стал влиятельным предшественником в этой области и моделью или образцом корпуса, на котором основывалась разработка более поздних корпусов.[31]

BNC2014

В июле 2014 года издательство Кембриджского университета и Центр корпусных подходов к социальным наукам (CASS) объявили в Ланкастерском университете о создании нового Британского национального корпуса - BNC2014.[32] - находился в стадии компиляции.[33] Первым этапом совместного проекта между двумя учреждениями было создание нового разговорного корпуса британского английского языка с начала до середины 2010-х годов.[34] Британский национальный корпус 2014 года, содержащий 11,5 миллионов слов, был опубликован 25 сентября 2017 года.[35] Компонент BNC2014, содержащий 100 миллионов слов, в настоящее время компилируется, и его публикация запланирована на осень 2018 года.[36]

Смотрите также

Рекомендации

  1. ^ Бернард, Лу; Астон, Гай (1998). Справочник BNC: изучение Британского национального корпуса. Эдинбург: Издательство Эдинбургского университета. п. xiii. ISBN  0-7486-1055-3.
  2. ^ а б Пиявка, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). «Корпусные исследования языка: в честь Яна Аартса». В Н. Остджик и П. Хаан (ред.). Масштабная грамматическая разметка текста: опыт работы с Британским национальным корпусом. Нидерланды: Rodopi Publishers. С. 47–63.
  3. ^ а б Что такое BNC?. Проверено 12 марта 2012 года.
  4. ^ а б c d Пиявка, Джеффри (1993). «100 миллионов английских слов». Английский сегодня. 9 (1): 9–15. Дои:10.1017 / S0266078400006854.
  5. ^ а б Британский национальный корпус. Проверено 12 марта 2012 года.
  6. ^ а б c d е Бернард, Лу (2002). «В чем мы ошиблись? Ретроспективный взгляд на Британский национальный корпус» (PDF). Получено 14 марта 2012.
  7. ^ «Продукты BNC». Получено 18 марта 2012.
  8. ^ Бернард, Лу (2003). «Справочник по BNC-baby». Получено 18 марта 2012.
  9. ^ «Доступна новая версия BNC Baby». Получено 19 марта 2012.
  10. ^ «BNC Sampler: XML-издание» (PDF). 2008. Получено 18 марта 2012.
  11. ^ Пиявка, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). «Claws4: Теги Британского национального корпуса». Доклад представлен на выставке COLING'94, Ланкастер: Великобритания. CiteSeerX  10.1.1.13.3622. Цитировать журнал требует | журнал = (помощь)
  12. ^ Пиявка, Джеффри; Смит, Николас (2000). «Британский национальный корпус (версия 2) с улучшенными тегами Word-класса». UCREL, Ланкастерский университет, Великобритания. Получено 17 марта 2012.
  13. ^ Пиявка, Джеффри; Смит, Николас (2000). «Автоматическая POS-маркировка корпуса». UCREL, Ланкастерский университет, Великобритания. Получено 17 марта 2012.
  14. ^ Бернард, Лу (1995). «Справочное руководство для пользователей Британского национального корпуса» (PDF). Получено 18 марта 2012.
  15. ^ «Получение лицензии на тэггер CLAWS». UCREL, Ланкастерский университет, Великобритания. Получено 17 марта 2012.
  16. ^ «Служба тегов CLAWS». UCREL, Ланкастерский университет, Великобритания. Получено 17 марта 2012.
  17. ^ "Как заказать". Получено 17 марта 2012.
  18. ^ Хоффманн, Себастьян; Эверт, Стефан (2008). Корпусная лингвистика с BNCweb: практическое руководство. Питер Лэнг. ISBN  978-3-631-56315-1.
  19. ^ а б Ли, Дэвид (2001). «ЖАНРЫ, РЕГИСТРЫ, ВИДЫ ТЕКСТА, ДОМЕНЫ И СТИЛИ» (PDF). 5 (3): 37–72. Получено 15 марта 2012. Цитировать журнал требует | журнал = (помощь)
  20. ^ а б Ли, Дэвид (2002). «КОММЕНТАРИИ К БИБЛИОГРАФИЧЕСКОМУ ИНДЕКСУ BNC WORLD EDITION» (PDF). Архивировано из оригинал (PDF) на 2013-09-23. Получено 17 марта 2012.
  21. ^ а б c d е ж грамм час я Астон, Гай (1998). «Изучение английского языка с Британским национальным корпусом». Доклад, представленный на 6-й выставке Jornada de Corpus, Барселона: UPF. Получено 16 марта 2012.
  22. ^ Минн, Дэнни; Сано, Хироши; Ино, Мари; Накамура, Такахиро (2005). «Использование BNC для создания и разработки учебных материалов и веб-сайта для изучающих английский язык» (PDF). Журнал ICAME. 29: 99–113. Получено 12 марта 2012.
  23. ^ «Двуязычные словари для продвижения родных языков Индии». Времена Омана. 14 марта 2012. Архивировано с оригинал 31 декабря 2010 г.. Получено 17 марта 2012.
  24. ^ "Что я могу делать с BNC?". Получено 18 марта 2012.
  25. ^ Корхонен, Анна (2002). «РЕСУРСЫ ОЦЕНКИ для английских систем приобретения подкатегорий». Архивировано из оригинал на 2012-12-13. Получено 18 марта 2012.
  26. ^ Хоффман, Себастьян; Леманн, Ханс Мартин (2000). «Совместные свидетельства из Британского национального корпуса». В Кирк, Джон М. (ред.). Корпорация в изобилии: анализ и методы описания английского языка. Амстердам: Родопи. ISBN  9789042004191.
  27. ^ Пирс, Майкл (ноябрь 2008 г.). «Исследование коллокационного поведения МУЖЧИНЫ и ЖЕНЩИНЫ в BNC с помощью Sketch Engine» (PDF). Корпуса. 3 (1): 1–29. Дои:10.3366 / E174950320800004X. Архивировано из оригинал (PDF) на 2015-06-27.
  28. ^ Фернандес, Ракель; Джонатан Гинзбург (29 июня 2002 г.). "Несговорчивые высказывания: исследование корпуса" (PDF). Архивировано из оригинал (PDF) 27 июня 2015 г. Цитировать журнал требует | журнал = (помощь)
  29. ^ а б Ли, Дэвид; Джон Свейлс (2006). «Курс EAP на основе корпуса для докторантов NNS: переход от имеющихся специализированных корпусов к самосборным корпусам». Английский для особых целей. 25 (1): 56–75. Дои:10.1016 / j.esp.2005.02.010.
  30. ^ а б Миннен, Гвидо; Кэрролл, Джон; Пирс, Даррен (2001). «Прикладная морфологическая обработка английского языка» (PDF). Инженерия естественного языка. 7 (3): 207–223. Дои:10,1017 / с 1351324901002728.
  31. ^ Чермак, Франтишек (2003). «Сегодняшний корпус лингвистики: некоторые открытые вопросы». Международный журнал корпусной лингвистики. 7 (2): 265–282. Дои:10.1075 / ijcl.7.2.06cer.
  32. ^ «Британский национальный корпус 2014».
  33. ^ Центр корпусных подходов к социальным наукам ESRC (CASS) (28 июля 2014 г.). «Разговорное объявление о проекте BNC2014». Получено 2016-10-07.
  34. ^ «Центр корпусных подходов к общественным наукам». Проверено 17 марта 2015 года.
  35. ^ "Джон Бенджаминс Паблишинг".
  36. ^ «Британский национальный корпус 2014».

внешняя ссылка