Корпусная лингвистика - Corpus linguistics

Корпусная лингвистика это изучение языка как выражено в корпус (образцы) текста из «реального мира». Корпоративная лингвистика предполагает, что надежный языковой анализ более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.

В области корпусной лингвистики существуют различные взгляды на ценность аннотации корпуса. Эти взгляды варьируются от Джон МакХарди Синклер, который выступает за минимальное количество аннотаций, чтобы текст говорил сам за себя,^[1] к Обзор использования английского языка команда (Университетский колледж, Лондон ), которые выступают за аннотацию как на возможность лучшего языкового понимания посредством тщательной записи.^[2]

Метод text-corpus - это пищеварительный подход, который выводит набор абстрактных правил, управляющих естественный язык из текстов на этом языке и исследует, как этот язык соотносится с другими языками. Изначально создаваемые вручную, теперь корпуса автоматически извлекаются из исходных текстов.

Помимо лингвистических исследований, собранные корпуса использовались для составления словари (начиная с Словарь английского языка American Heritage Dictionary в 1969 г.) и руководства по грамматике, такие как Комплексная грамматика английского языка, опубликовано в 1985 году.

История

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, Пратишакхья в литературе описаны звуковые паттерны санскрит как найдено в Веды, и Панини грамматика классический санскрит был основан по крайней мере частично на анализе того же самого корпуса. Точно так же ранние Арабские грамматики особое внимание уделил языку Коран. В западноевропейской традиции ученые готовили согласования чтобы позволить детальное изучение языка Библии и других канонических текстов.

Английский корпус

Вехой в современной корпусной лингвистике стала публикация Генри Кучера и В. Нельсон Фрэнсис из Вычислительный анализ современного американского английского в 1967 г. работа, основанная на анализе Коричневый корпус, тщательно подобранная подборка современного американского английского языка, насчитывающая около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли ее множеству компьютерных анализов, на основе которых они составили богатый и разнообразный труд, сочетающий в себе элементы лингвистики, обучения языкам и т. Д. психология, статистика и социология. Следующей ключевой публикацией была Рэндольф Куирк 'На пути к описанию употребления английского языка' (1960)^[3] в котором он представил Обзор использования английского языка.

Вскоре после этого бостонское издательство Houghton-Mifflin обратился к Kučera с просьбой предоставить базу цитирования из миллиона слов в три строки для своего нового Словарь американского наследия, первый толковый словарь составлено с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как язык должен использоваться) с описательной информацией (как это на самом деле является использовал).

Другие издатели последовали его примеру. Британский издатель Коллинз COBUILD словарь одноязычного учащегося, предназначен для обучения пользователей Английский как иностранный, был скомпилирован с использованием Банк английского языка. В Обзор использования английского языка Корпус был использован при разработке одной из наиболее важных грамматик на основе Корпуса - Комплексная грамматика английского языка (Галтель и другие. 1985).^[4]

В Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus (1960-е Британский английский ), Колхапур (Индийский английский ), Веллингтон (Новая Зеландия Английский ), Австралийский корпус английского языка (Австралийский английский ), Корпус хмурого взгляда (начало 1990-х Американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и режимов и включают Международный корпус английского языка, а Британский национальный корпус, коллекция из 100 миллионов слов разнообразных устных и письменных текстов, созданная в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британская библиотека. Работа над современным американским английским застопорилась. Американский национальный корпус, но 400+ миллионов слов Корпус современного американского английского (1990 – настоящее время) теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус записанной разговорной речи был построен в 1971 году Монреальским французским проектом.^[5] содержащий миллион слов, которые вдохновили Шана Поплак - гораздо больший корпус разговорного французского в районе Оттава-Халл.^[6]

Многоязычный корпус

В 1990-х годах многие из первых заметных успехов статистических методов в НЛП произошли в области машинный перевод, особенно благодаря работе в IBM Research. Эти системы смогли использовать преимущества существующих многоязычных текстовые корпуса это было произведено Парламент Канады и Евросоюз в результате принятия законов, требующих перевода всех правительственных заседаний на все официальные языки соответствующих систем управления.

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить Андерсен - База данных Еврейской Библии Forbes, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации.^[7]^[8] В Коранический арабский корпус представляет собой аннотированный корпус классического арабского языка Коран. Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, теги части речи и синтаксический анализ с использованием грамматики зависимостей.^[9]

Корпуса из определенных областей

Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина юридическая и корпусная лингвистика, который пытается понять юридические тексты с использованием совокупных данных и инструментов.

Методы

Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001)^[10] впервые представил то, что они назвали перспективой 3А: аннотации, абстракция и анализ.

Аннотации состоит в применении схемы к текстам. Аннотации могут включать структурную разметку, часть речи теги, синтаксический анализ и многие другие представления.
Абстракция состоит из перевода (отображения) терминов схемы в термины теоретически обоснованной модели или набора данных. Абстракция обычно включает поиск под руководством лингвиста, но может включать, например, изучение правил для парсеров.
Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.

Большинство лексических корпусов сегодня имеют теги части речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеры корпуса ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований.^[11]

Смотрите также

Примечания и ссылки

^ Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Направления в корпусной лингвистике (Труды Нобелевского симпозиума 82). Берлин: Мутон де Грюйтер. 1992 г.
^ Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, A.A. (ред.) Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Университет Хельсинки]. 2007 г. Электронная публикация
^ Quirk, R. "К описанию использования английского языка", Труды Филологического общества. 1960. 40–61.
^ Куирк, Р., Гринбаум, С., Пиявка, Г. и Свартвик, Дж. Комплексная грамматика английского языка Лондон: Лонгман. 1985 г.
^ Санкофф Д. и Санкофф Г. Выборочные методы обследования и компьютерный анализ при изучении грамматических вариаций. В Дарнелл Р. (ред.) Канадские языки в их социальном контексте Эдмонтон: Linguistic Research Incorporated. 1973. 7–64.
^ Поплак, С. Уход и обращение с мега-корпусом. In Fasold, R. & Schiffrin D. (ред.) Смена языка и вариация, Амстердам: Бенджаминс. 1989. 411–451.
^ Андерсен, Фрэнсис I; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние ближневосточные исследования, 40, стр. 43–61 [45]
^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Дж .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г., Озеро Вайнона, IN: Айзенбраунс, п. 51, ISBN 0-931464-26-9
^ Дьюкс К., Этуэлл Э. и Хабаш Н. «Совместная работа с руководителем для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал. 2011.
^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах. Интеллектуальный анализ данных и обнаружение знаний, 5: 307–340. 2001.
^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях. Нью-Йорк: Рутледж.

дальнейшее чтение

Книги

Бибер Д., Конрад С., Реппен Р. Корпусная лингвистика, изучение структуры и использования языка, Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7
Маккарти Д. и Сэмпсон Г. Корпусная лингвистика: материалы для расширяющейся дисциплины, Континуум, 2005. ISBN 0-8264-8803-X
Факкинетти, Р. Теоретическое описание и практическое применение лингвистических корпусов. Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
Факкинетти, Р. (ред.) Corpus Linguistics 25 лет спустя. Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
Факкинетти Р. и Риссанен М. (ред.) Корпусные исследования диахронического английского языка. Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
Кредиторы, W. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980, in: Gouws, R.H., Heid, U., Schweickard, W., Wiegand, H.E. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию. Берлин: Де Грюйтер Мутон, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Ред.): Грамматика и корпус, 2016, Гейдельберг: Издательство Гейдельбергского университета, 2018. Дои: 10.17885 / heiup.361.509 (цифровой открытый доступ ).

Цикл книг

Книжные серии в этой области включают:

Журналы

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

внешняя ссылка

Закладки для лингвистов на основе корпуса - очень подробный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. Д.
Список обсуждения корпуса
Свободно доступные веб-корпуса (от 100 до 400 миллионов слов каждый): американский (COCA, COHA), британский (BNC), TIME, испанский, португальский
Обзорный сайт Мануэля Барбера
Список литературы Пшемека Кашубски
AskOxford.com состав и использование Oxford Corpus
DMCBC.com
Datum Multilanguage Corpora На основе китайского бесплатного образца загрузки
Сообщество Corpus4u китайский онлайн-форум корпусной лингвистики
Страница Корпуса лингвистики МакЭнери и Уилсона
Corpus Linguistics со списком рассылки R
Отдел исследований и разработок для изучения английского языка
Обзор использования английского языка
Центр корпусной лингвистики при Университете Бирмингема
Инструменты для корпусной лингвистики (аннотированный список)
Шлюз к корпусной лингвистике в Интернете: аннотированное руководство по корпусным ресурсам в Интернете
Биомедицинские корпуса
Консорциум лингвистических данных, крупный дистрибьютор корп.
Пенн Разбор корпусов исторического английского языка
Корсис: (ранее Tenka Text) и Открытый исходный код (GPLed ) инструмент анализа корпуса, написанный на C #
ICECUP и Нечеткие фрагменты дерева
Дискуссионная группа интеллектуальный анализ текста
Дискуссионное сообщество Google+ по корпусной лингвистике для изучения и преподавания языков
Конференция по корпусной лингвистике MAG 2017: вы можете найти некоторую информацию и события, связанные с Метадискурс по жанрам, посетив сайт MAG 2017.
Корпус политических выступлений, общедоступный с выступлениями из США, Гонконга, Тайваня и Китая, предоставленных Библиотека Гонконгского баптистского университета
LIVAC Synchronous Corpus

[1] Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Направления в корпусной лингвистике (Труды Нобелевского симпозиума 82). Берлин: Мутон де Грюйтер. 1992 г.

[2] Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, A.A. (ред.) Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Университет Хельсинки]. 2007 г. Электронная публикация

[3] Quirk, R. "К описанию использования английского языка", Труды Филологического общества. 1960. 40–61.

[4] Куирк, Р., Гринбаум, С., Пиявка, Г. и Свартвик, Дж. Комплексная грамматика английского языка Лондон: Лонгман. 1985 г.

[5] Санкофф Д. и Санкофф Г. Выборочные методы обследования и компьютерный анализ при изучении грамматических вариаций. В Дарнелл Р. (ред.) Канадские языки в их социальном контексте Эдмонтон: Linguistic Research Incorporated. 1973. 7–64.

[6] Поплак, С. Уход и обращение с мега-корпусом. In Fasold, R. & Schiffrin D. (ред.) Смена языка и вариация, Амстердам: Бенджаминс. 1989. 411–451.

[7] Андерсен, Фрэнсис I; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние ближневосточные исследования, 40, стр. 43–61 [45]

[8] Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Дж .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г., Озеро Вайнона, IN: Айзенбраунс, п. 51, ISBN 0-931464-26-9

[9] Дьюкс К., Этуэлл Э. и Хабаш Н. «Совместная работа с руководителем для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал. 2011.

[10] Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах. Интеллектуальный анализ данных и обнаружение знаний, 5: 307–340. 2001.

[11] Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях. Нью-Йорк: Рутледж.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]