Парсинг - Parsing

Парсинг, синтаксический анализ, или же синтаксический анализ это процесс анализа нить из символы, либо в естественный язык, компьютерные языки или же структуры данных, согласно правилам формальная грамматика. Период, термин разбор происходит от латинского парсы (orationis), смысл часть речи).[1]

Термин имеет несколько разные значения в разных отраслях лингвистика и Информатика. Традиционный приговор синтаксический анализ часто выполняется как метод понимания точного значения предложения или слова, иногда с помощью таких устройств, как диаграммы предложений. Обычно подчеркивается важность таких грамматических разделов, как предмет и предикат.

В компьютерная лингвистика этот термин используется для обозначения формального компьютерного анализа предложения или другой строки слов на его составные части, в результате чего получается дерево синтаксического анализа показывая их синтаксическое отношение друг к другу, что также может содержать семантический и другая информация (p-значения ).[нужна цитата ] Некоторые алгоритмы синтаксического анализа могут генерировать разбирать лес или список деревьев синтаксического анализа для синтаксически неоднозначный Вход.[2]

Этот термин также используется в психолингвистика при описании понимания языка. В этом контексте под синтаксическим анализом понимается способ, которым люди анализируют предложение или фразу (в устной речи или в тексте) «с точки зрения грамматических составляющих, определения частей речи, синтаксических отношений и т. Д.»[1] Этот термин особенно часто используется при обсуждении того, какие языковые сигналы помогают говорящим интерпретировать предложения садовой дорожки.

В информатике этот термин используется при анализе компьютерные языки, относящийся к синтаксическому анализу входного кода на его составные части, чтобы облегчить написание компиляторы и переводчики. Этот термин может также использоваться для описания разделения или разделения.

Человеческие языки

Традиционные методы

Традиционное грамматическое упражнение по синтаксическому анализу, иногда известное как анализ статьи, включает разбиение текста на составные части речи с объяснением формы, функции и синтаксических отношений каждой части.[3] Это во многом определяется изучением языковых навыков. спряжения и склонения, что может быть довольно запутанным для языков с сильным изменением. Чтобы разобрать такую ​​фразу, как «человек кусает собаку», необходимо отметить, что существительное «человек» в единственном числе является субъектом предложения, глагол «кусает» - это третье лицо единственного числа в настоящем времени глагола «кусать» и существительное в единственном числе «собака» является объектом предложения. Такие методы, как диаграммы предложений иногда используются для обозначения отношения между элементами в предложении.

В прошлом синтаксический анализ занимал центральное место в преподавании грамматики во всем англоязычном мире и широко рассматривался как основа использования и понимания письменной речи. Однако общее обучение таким техникам больше не актуально.

Вычислительные методы

В некоторых машинный перевод и обработка естественного языка системы, письменные тексты на человеческих языках анализируются компьютерными программами.[4] Человеческие предложения нелегко анализировать программами, поскольку двусмысленность в структуре человеческого языка, который используется для передачи значения (или семантика ) среди потенциально неограниченного диапазона возможностей, но лишь некоторые из них имеют отношение к конкретному случаю.[5] Таким образом, высказывание «Человек кусает собаку» по сравнению с «Собака кусает человека» определенно по одной детали, но на другом языке может выглядеть как «Человек кусает собаку» с опорой на более широкий контекст, чтобы различать эти две возможности, если это действительно так. беспокойства. Трудно подготовить формальные правила для описания неформального поведения, хотя очевидно, что некоторые правила соблюдаются.[нужна цитата ]

Чтобы анализировать данные на естественном языке, исследователи должны сначала согласовать грамматика использоваться. На выбор синтаксиса влияют как лингвистический и вычислительные проблемы; например, некоторые системы синтаксического анализа используют лексическая функциональная грамматика, но в целом синтаксический анализ грамматик этого типа известен как НП-полный. Грамматика структуры фраз, управляемая головой - еще один лингвистический формализм, который был популярен в сообществе синтаксического анализа, но другие исследовательские усилия были сосредоточены на менее сложных формализмах, таких как тот, который используется в Penn Treebank. Неглубокий разбор стремится найти только границы основных составляющих, таких как именные фразы. Еще одна популярная стратегия избежания лингвистических противоречий: грамматика зависимостей парсинг.

Большинство современных парсеров хотя бы частично статистический; то есть они полагаются на корпус обучающих данных, которые уже были аннотированы (проанализированы вручную). Такой подход позволяет системе собирать информацию о частоте, с которой различные конструкции встречаются в определенных контекстах. (Видеть машинное обучение.) Используемые подходы включают простые PCFG (вероятностные контекстно-свободные грамматики),[6] максимальная энтропия,[7] и нейронные сети.[8] Большинство наиболее успешных систем используют лексический статистику (то есть они учитывают идентичность задействованных слов, а также их часть речи ). Однако такие системы уязвимы для переоснащение и требуют какого-то сглаживание чтобы быть эффективным.[нужна цитата ]

Алгоритмы синтаксического анализа для естественного языка не могут полагаться на грамматику, имеющую «хорошие» свойства, как в случае грамматик, созданных вручную для языков программирования. Как упоминалось ранее, некоторые грамматические формализмы очень трудно анализировать с помощью вычислений; в общем, даже если желаемая структура не контекстно-свободный, для выполнения первого прохода используется некое неконтекстное приближение к грамматике. Алгоритмы, использующие контекстно-свободные грамматики, часто полагаются на какой-либо вариант CYK алгоритм, обычно с некоторыми эвристический удалить маловероятные анализы, чтобы сэкономить время. (Видеть анализ диаграммы.) Однако некоторые системы торгуют скоростью ради точности, используя, например, версии линейного времени сдвиг-уменьшить алгоритм. Несколько недавнее развитие было изменение ранжирования синтаксического анализа в котором синтаксический анализатор предлагает большое количество анализов, а более сложная система выбирает лучший вариант.[нужна цитата ] Семантические парсеры преобразовывать тексты в представления их значений.[9]

Психолингвистика

В психолингвистика, синтаксический анализ включает не только присвоение слов категориям (формирование онтологических идей), но и оценку значения предложения в соответствии с правилами синтаксиса, сделанными на основе выводов, сделанных из каждого слова в предложении (известного как коннотация ). Обычно это происходит, когда слова слышны или читаются. Следовательно, психолингвистические модели синтаксического анализа необходимы. добавочный, что означает, что они создают интерпретацию по мере обработки предложения, которая обычно выражается в виде частичной синтаксической структуры. При интерпретации происходит создание изначально неправильных структур. предложения садовой дорожки.

Анализ речи

Анализ речи исследует способы анализа использования языка и семиотических событий. Убедительный язык можно назвать риторика.

Компьютерные языки

Парсер

А парсер это программный компонент, который принимает входные данные (часто текст) и создает структура данных - часто какой-то дерево синтаксического анализа, абстрактное синтаксическое дерево или другая иерархическая структура, дающая структурное представление ввода при проверке правильного синтаксиса. Синтаксическому анализу могут предшествовать или следовать другие шаги, или они могут быть объединены в один шаг. Парсеру часто предшествует отдельный лексический анализатор, который создает токены из последовательности вводимых символов; в качестве альтернативы они могут быть объединены в разбор без сканирования. Парсеры могут быть запрограммированы вручную или автоматически или полуавтоматически сгенерированы генератор парсеров. Разбор дополняет создание шаблонов, который производит форматированный выход. Они могут применяться к разным доменам, но часто появляются вместе, например, сканф /printf пара или этапы ввода (синтаксический анализ) и вывода (генерация внутреннего кода) компилятора.

Входными данными парсера часто бывает текст в некоторых компьютерный язык, но также может быть текстом на естественном языке или менее структурированными текстовыми данными, и в этом случае обычно извлекаются только определенные части текста, а не строится дерево синтаксического анализа. Парсеры варьируются от очень простых функций, таких как сканф, в сложные программы, такие как интерфейс Компилятор C ++ или HTML синтаксический анализатор веб-браузер. Важный класс простого разбора выполняется с использованием обычные выражения, в котором группа регулярных выражений определяет обычный язык и механизм регулярных выражений автоматически генерирует синтаксический анализатор для этого языка, что позволяет сопоставление с образцом и извлечение текста. В других контекстах вместо этого перед синтаксическим анализом используются регулярные выражения на этапе лексирования, вывод которого затем используется анализатором.

Использование парсеров зависит от ввода. В случае языков данных синтаксический анализатор часто используется как средство чтения файлов программы, например чтение в HTML или XML текст; эти примеры языки разметки. В случае языки программирования, парсер является компонентом компилятор или же устный переводчик, который анализирует исходный код из язык компьютерного программирования создать некую форму внутреннего представления; парсер - ключевой шаг в интерфейс компилятора. Языки программирования, как правило, указываются в терминах детерминированная контекстно-свободная грамматика потому что для них можно написать быстрые и эффективные парсеры. Для компиляторов сам анализ может выполняться за один или несколько проходов - см. однопроходный компилятор и многопроходный компилятор.

Подразумеваемые недостатки однопроходного компилятора можно в значительной степени преодолеть, добавив исправления, где предусмотрено перемещение кода во время прямого прохода, а исправления применяются в обратном направлении, когда текущий сегмент программы распознается как завершенный. Примером, где такой механизм исправления может быть полезен, может быть прямой оператор GOTO, где цель GOTO неизвестна, пока сегмент программы не будет завершен. В этом случае применение исправления будет отложено до тех пор, пока цель GOTO не будет распознана. И наоборот, обратный GOTO не требует исправления, поскольку местоположение уже будет известно.

Бесконтекстные грамматики ограничены в степени, в которой они могут выразить все требования языка. Неформально причина в том, что память такого языка ограничена. Грамматика не может запомнить наличие конструкции на произвольно длинном вводе; это необходимо для языка, в котором, например, имя должно быть объявлено до того, как на него можно будет ссылаться. Однако более мощные грамматики, которые могут выразить это ограничение, не могут быть проанализированы эффективно. Таким образом, распространенной стратегией является создание упрощенного синтаксического анализатора для контекстно-свободной грамматики, который принимает надмножество желаемых языковых конструкций (то есть принимает некоторые недопустимые конструкции); позже нежелательные конструкции могут быть отфильтрованы на семантический анализ (контекстный анализ) шаг.

Например, в Python следующий синтаксически правильный код:

Икс = 1Распечатать(Икс)

Следующий код, однако, синтаксически действителен с точки зрения контекстно-свободной грамматики, давая синтаксическое дерево с той же структурой, что и предыдущий, но синтаксически недопустимый с точки зрения контекстно-зависимая грамматика, который требует инициализации переменных перед использованием:

Икс = 1Распечатать(у)

Вместо того, чтобы анализироваться на этапе синтаксического анализа, это обнаруживается путем проверки значения в синтаксическом дереве, следовательно, как часть семантический анализ: контекстно-зависимый синтаксис на практике часто легче анализировать как семантику.

Обзор процесса

Поток данных в типичном парсере

Следующий пример демонстрирует общий случай синтаксического анализа компьютерного языка с двумя уровнями грамматики: лексическим и синтаксическим.

Первый этап - это генерация токена, или лексический анализ, с помощью которого входной поток символов разбивается на значащие символы, определенные грамматикой обычные выражения. Например, программа-калькулятор будет рассматривать такие входные данные, как "12 * (3 + 4)^2"и разбить на жетоны 12, *, (, 3, +, 4, ), ^, 2, каждый из которых является значимым символом в контексте арифметического выражения. Лексический анализатор будет содержать правила, сообщающие ему, что символы *, +, ^, ( и ) отметить начало нового токена, поэтому бессмысленные токены вроде "12*" или же "(3"не будет создано.

Следующий этап - это синтаксический анализ, который проверяет, что токены образуют допустимое выражение. Обычно это делается со ссылкой на контекстно-свободная грамматика который рекурсивно определяет компоненты, которые могут составлять выражение, и порядок, в котором они должны появляться. Однако не все правила, определяющие языки программирования, могут быть выражены только контекстно-независимыми грамматиками, например, достоверность типа и правильное объявление идентификаторов. Эти правила могут быть формально выражены с помощью грамматики атрибутов.

Заключительный этап семантический анализ или анализ, который определяет значение только что проверенного выражения и предпринимает соответствующие действия.[10] В случае калькулятора или интерпретатора действие заключается в оценке выражения или программы; компилятор, с другой стороны, генерирует какой-то код. Грамматика атрибутов также может использоваться для определения этих действий.

Типы парсеров

В задача синтаксического анализатора, по сути, определяет, можно ли и как получить ввод из начального символа грамматики. Это можно сделать двумя способами:

  • Анализ сверху вниз - Нисходящий синтаксический анализ можно рассматривать как попытку найти самые левые производные входного потока путем поиска разбирать деревья используя расширение данного формальная грамматика правила. Жетоны расходуются слева направо. Инклюзивный выбор используется для размещения двусмысленность расширяя все альтернативные правые части правил грамматики.[11] Это известно как изначальный суповой подход. Очень похоже на построение диаграмм предложений, изначальный суп разбивает составные части предложений.[12]
  • Анализ снизу вверх - Парсер может начать с ввода и попытаться переписать его на начальный символ. Интуитивно синтаксический анализатор пытается найти самые основные элементы, затем элементы, содержащие их, и так далее. Парсеры LR являются примерами восходящих парсеров. Другой термин, используемый для синтаксического анализатора этого типа: Shift-Уменьшить парсинг.

LL парсеры и синтаксический анализатор с рекурсивным спуском являются примерами нисходящих парсеров, которые не могут поддерживать леворекурсивный правила производства. Хотя считалось, что простые реализации нисходящего синтаксического анализа не могут поддерживать прямую и косвенную левую рекурсию и могут потребовать экспоненциальной временной и пространственной сложности при синтаксическом анализе. неоднозначные контекстно-свободные грамматики, более сложные алгоритмы нисходящего синтаксического анализа были созданы Фростом, Хафизом и Каллаганом.[13][14] которые вмещают двусмысленность и левая рекурсия за полиномиальное время и которые генерируют представления полиномиального размера потенциально экспоненциального числа деревьев синтаксического анализа. Их алгоритм может производить как самые левые, так и самые правые деривации входных данных с учетом заданного контекстно-свободная грамматика.

Важное различие в отношении парсеров заключается в том, генерирует ли парсер крайний левый вывод или крайнее правое происхождение (видеть контекстно-свободная грамматика ). Парсеры LL сгенерируют крайний левый происхождение а парсеры LR будут генерировать самый правый вывод (хотя обычно в обратном порядке).[11]

Немного графический анализ алгоритмы были разработаны для языки визуального программирования.[15][16] Парсеры для визуальных языков иногда основаны на графовые грамматики.[17]

Адаптивный парсинг алгоритмы были использованы для построения "саморасширяющихся" пользовательские интерфейсы на естественном языке.[18]

Программное обеспечение для разработки парсеров

Некоторые из хорошо известных инструментов разработки парсеров включают следующее:

Смотреть вперед

C программа, которая не может быть проанализирована с опережением менее чем на 2 токена. Вершина: C отрывок из грамматики.[19] Нижний: парсер переварил токены "int v;главный(){"и собирается выбрать правило для получения Stmt. Глядя только на первый опережающий токен "v", он не может решить, какой из обоих вариантов Stmt выбирать; последнее требует взгляда на второй токен.

Lookahead устанавливает максимальное количество входящих токенов, которые анализатор может использовать, чтобы решить, какое правило ему следует использовать. Взгляд вперед особенно важен для LL, LR, и Парсеры LALR, где это часто явно указывается путем добавления опережающего просмотра к имени алгоритма в круглых скобках, например LALR (1).

Наиболее языки программирования, основная цель синтаксических анализаторов, тщательно определены таким образом, чтобы синтаксический анализатор с ограниченным просмотром вперед, обычно один, мог анализировать их, потому что синтаксические анализаторы с ограниченным прогнозом часто более эффективны. Одно важное изменение[нужна цитата ] к этой тенденции пришли в 1990 году, когда Теренс Парр созданный ANTLR для его доктора философии. дипломная работа генератор парсеров для эффективного LL (k) парсеры, где k - любое фиксированное значение.

Парсеры LR обычно выполняют всего несколько действий после просмотра каждого токена. Это сдвиг (добавление этого токена в стек для последующего сокращения), сокращение (извлечение токенов из стека и формирование синтаксической конструкции), конец, ошибка (не применяется известное правило) или конфликт (не известно, сдвигать или уменьшать) .

Lookahead имеет два преимущества.[требуется разъяснение ]

  • Это помогает парсеру предпринять правильные действия в случае конфликтов. Например, разбор оператора if в случае предложения else.
  • Это устраняет множество повторяющихся состояний и снижает нагрузку на дополнительный стек. Непредвиденный синтаксический анализатор языка C будет иметь около 10 000 состояний. Парсер просмотра вперед будет иметь около 300 состояний.

Пример: анализ выражения 1 + 2 * 3[сомнительный ]

Набор правил синтаксического анализа выражений (называемых грамматикой) выглядит следующим образом:
Правило 1:E → E + EВыражение - это сумма двух выражений.
Правило 2:E → E * EВыражение - это результат двух выражений.
Правило 3:E → числоВыражение - это простое число
Правило 4:+ имеет меньший приоритет, чем *

Большинство языков программирования (за исключением нескольких, таких как APL и Smalltalk) и алгебраических формул отдают более высокий приоритет умножению, чем сложению, и в этом случае правильная интерпретация приведенного выше примера такова: 1 + (2 * 3)Обратите внимание, что Правило 4 выше является семантическим правилом. Можно переписать грамматику, чтобы включить это в синтаксис. Однако не все такие правила можно перевести в синтаксис.

Простые действия парсера без предварительного просмотра

Первоначально ввод = [1, +, 2, *, 3]

  1. Переместите "1" в стек из ввода (в ожидании правила 3). Ввод = [+, 2, *, 3] Стек = [1]
  2. Уменьшает "1" до выражения "E" на основе правила 3. Стек = [E]
  3. Переместите "+" в стек из ввода (в ожидании правила 1). Ввод = [2, *, 3] Стек = [E, +]
  4. Переместите "2" в стек из ввода (в ожидании правила 3). Ввод = [*, 3] Стек = [E, +, 2]
  5. Сократите элемент стека «2» до выражения «E» на основе правила 3. Стек = [E, +, E]
  6. Уменьшите элементы стека [E, +, E] и новый ввод «E» до «E» на основе правила 1. Стек = [E]
  7. Переместите "*" в стек из ввода (в ожидании правила 2). Вход = [3] Стек = [E, *]
  8. Переместите "3" в стек из ввода (в ожидании правила 3). Ввод = [] (пусто) Стек = [E, *, 3]
  9. Сократите элемент стека «3» до выражения «E» на основе правила 3. Стек = [E, *, E]
  10. Уменьшите элементы стека [E, *, E] и новый ввод «E» до «E» на основе правила 2. Стек = [E]

Дерево синтаксического анализа и результирующий код не соответствуют семантике языка.

Чтобы правильно выполнить синтаксический анализ без просмотра вперед, есть три решения:

  • Пользователь должен заключать выражения в круглые скобки. Часто это не жизнеспособное решение.
  • Синтаксическому анализатору необходимо иметь больше логики для возврата и повторной попытки всякий раз, когда правило нарушается или не завершено. Аналогичный метод используется в парсерах LL.
  • В качестве альтернативы, синтаксический анализатор или грамматика должны иметь дополнительную логику для сокращения задержки и сокращения только тогда, когда он абсолютно уверен, какое правило сокращать первым. Этот метод используется в парсерах LR. Это правильно анализирует выражение, но с большим количеством состояний и увеличенной глубиной стека.
Действия парсера Lookahead[требуется разъяснение ]
  1. Переместите 1 в стек на входе 1 в ожидании правила 3. Снижается не сразу.
  2. Уменьшите элемент стека 1 до простого Expression on input + на основе правила 3. Предварительный просмотр равен +, поэтому мы находимся на пути к E +, поэтому мы можем уменьшить стек до E.
  3. Shift + в стек на входе + в ожидании правила 1.
  4. Переместите 2 в стек на входе 2 в ожидании правила 3.
  5. Уменьшите элемент стека 2 до Выражения при вводе * в соответствии с правилом 3. Предварительный просмотр * ожидает только E.
  6. Теперь в стеке есть E + E, а на входе - *. Теперь у него есть два варианта: сдвиг на основе правила 2 или сокращение на основе правила 1. Поскольку * имеет более высокий приоритет, чем + на основании правила 4, мы переносим * в стек в ожидании правила 2.
  7. Переместите 3 в стек на входе 3 в ожидании правила 3.
  8. Уменьшите элемент стека 3 до Expression после того, как увидите конец ввода в соответствии с правилом 3.
  9. Уменьшите элементы стека с E * E до E в соответствии с правилом 2.
  10. Уменьшите элементы стека E + E до E в соответствии с правилом 1.

Сгенерированное дерево синтаксического анализа правильно и просто более эффективным[уточнить ][нужна цитата ] чем парсеры без предварительного просмотра. Это стратегия, которой следовали в Парсеры LALR.

Смотрите также

Рекомендации

  1. ^ а б "Разобрать". Dictionary.reference.com. Получено 27 ноября 2010.
  2. ^ Масару Томита (6 декабря 2012 г.). Обобщенный анализ LR. Springer Science & Business Media. ISBN  978-1-4615-4034-2.
  3. ^ «Грамматика и композиция».
  4. ^ Кристофер Д. Мэннинг; Кристофер Д. Мэннинг; Хинрих Шютце (1999). Основы статистической обработки естественного языка. MIT Press. ISBN  978-0-262-13360-9.
  5. ^ Джурафски, Даниэль (1996). «Вероятностная модель лексического и синтаксического доступа и устранения неоднозначности». Наука о мышлении. 20 (2): 137–194. CiteSeerX  10.1.1.150.5711. Дои:10.1207 / с15516709cog2002_1.
  6. ^ Кляйн, Дэн и Кристофер Д. Мэннинг. "Точный нелексикальный разбор. "Труды 41-го ежегодного собрания Ассоциации компьютерной лингвистики - Том 1. Ассоциация компьютерной лингвистики, 2003.
  7. ^ Чарняк, Евгений. "Синтаксический анализатор с максимальной энтропией. "Труды 1-го Североамериканского отделения конференции Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2000.
  8. ^ Чен, Даньци и Кристофер Мэннинг. "Быстрый и точный парсер зависимостей с использованием нейронных сетей. »Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP). 2014.
  9. ^ Джиа, Робин; Лян, Перси (2016-06-11). «Рекомбинация данных для нейросемантического анализа». arXiv:1606.03622 [cs.CL ].
  10. ^ Берант, Джонатан и Перси Лян. "Семантический анализ через перефразирование. "Труды 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). 2014.
  11. ^ а б Ахо, А. В., Сетхи, Р. и Ульман, Дж. Д. (1986) "Компиляторы: принципы, методы и инструменты". Эддисон-Уэсли Лонгман Publishing Co., Inc. Бостон, Массачусетс, США.
  12. ^ Сиккель, Клаас, 1954- (1997). Схемы синтаксического анализа: структура для спецификации и анализа алгоритмов синтаксического анализа. Берлин: Springer. ISBN  9783642605413. OCLC  606012644.CS1 maint: несколько имен: список авторов (связь)
  13. ^ Фрост Р., Хафиз Р. и Каллаган П. (2007) " Модульный и эффективный анализ сверху вниз для неоднозначных леворекурсивных грамматик ." 10-й Международный семинар по технологиям парсинга (IWPT), ACL-SIGPARSE , Страницы: 109 - 120, июнь 2007, Прага.
  14. ^ Фрост Р., Хафиз Р. и Каллаган П. (2008) " Комбинаторы синтаксического анализатора для неоднозначных леворекурсивных грамматик." 10-й Международный симпозиум по практическим аспектам декларативных языков (PADL), ACM-SIGPLAN , Том 4902/2008, Страницы: 167 - 181, январь 2008 г., Сан-Франциско.
  15. ^ Рекерс, Ян и Энди Шюрр. "Определение и анализ визуальных языков с помощью грамматик многоуровневых графов. "Журнал визуальных языков и вычислений 8.1 (1997): 27-55.
  16. ^ Рекерс, Ян, и А. Шурр. "Грамматический подход к графическому синтаксическому анализу. "Визуальные языки, Труды., 11-й Международный симпозиум IEEE. IEEE, 1995.
  17. ^ Чжан, Да-Цянь, Кан Чжан и Цзяньнун Цао. "Контекстно-зависимый формализм грамматики графов для спецификации визуальных языков. »Компьютерный журнал 44.3 (2001): 186-200.
  18. ^ Джилл Файн Леман (6 декабря 2012 г.). Адаптивный синтаксический анализ: самораспространяющиеся интерфейсы естественного языка. Springer Science & Business Media. ISBN  978-1-4615-3622-2.
  19. ^ взято из Брайан В. Керниган и Деннис М. Ричи (апрель 1988 г.). Язык программирования C. Серия программного обеспечения Prentice Hall (2-е изд.). Englewood Cliffs / NJ: Prentice Hall. ISBN  0131103628. (Приложение A.13 «Грамматика», стр.193 и далее)

дальнейшее чтение

внешняя ссылка