Введение в грамматику - Grammar induction

Введение в грамматику (или же грамматический вывод)[1] это процесс в машинное обучение изучения формальная грамматика (обычно как набор переписать правила или же постановки или, альтернативно, как конечный автомат или какой-либо автомат) из набора наблюдений, создавая таким образом модель, которая учитывает характеристики наблюдаемых объектов. В более общем смысле грамматический вывод - это та ветвь машинного обучения, где пространство экземпляров состоит из дискретных комбинаторных объектов, таких как строки, деревья и графы.

Уроки грамматики

Грамматический вывод часто был сосредоточен на проблеме обучения конечных автоматов различных типов (см. Статью Индукция обычных языков подробнее об этих подходах), поскольку эффективные алгоритмы решения этой проблемы существуют с 1980-х годов.

С начала века эти подходы были распространены на проблему вывода контекстно-свободные грамматики и более богатые формализмы, такие как множественные контекстно-свободные грамматики и параллельные множественные контекстно-свободные грамматики.Другие классы грамматик, для которых был изучен грамматический вывод, комбинаторно категориальные грамматики,[2] стохастические контекстно-свободные грамматики,[3] контекстные грамматики и языки шаблонов.

Модели обучения

Самая простая форма обучения - это когда алгоритм обучения просто получает набор примеров, взятых из рассматриваемого языка: цель состоит в том, чтобы изучить язык на его примерах (и, реже, на контрпримерах, то есть на примерах, которые не принадлежат к языку), однако были изучены и другие модели обучения. Одна из часто изучаемых альтернатив - это случай, когда учащийся может задавать вопросы о членстве, как в модели обучения с точным запросом или минимально адекватной модели учителя, представленной Angluin.[4]

Методологии

Существует множество методов грамматического вывода. Два классических источника: Фу (1977) и Фу (1982). Дуда, Харт и Аист (2001) Также посвятите проблеме краткий раздел и процитируйте ряд ссылок. Предлагаемый ими основной метод проб и ошибок обсуждается ниже. Для подходов к выводу подклассов обычные языки в частности, см. Индукция обычных языков. Более свежий учебник - de la Higuera (2010),[1] который охватывает теорию грамматического вывода регулярных языков и конечных автоматов. Д'Улиция, Ферри и Грифони[5] предоставить обзор, в котором исследуются методы грамматического вывода для естественных языков.

Грамматический вывод методом проб и ошибок

Метод, предложенный в разделе 8.7. Дуда, Харт и Аист (2001) предлагает последовательно угадывать правила грамматики (продукции) и проверять их на положительных и отрицательных наблюдениях. Набор правил расширяется, чтобы иметь возможность генерировать каждый положительный пример, но если данный набор правил также генерирует отрицательный пример, он должен быть отброшен. Этот конкретный подход может быть охарактеризован как «проверка гипотез» и имеет некоторое сходство с подходом Митчела. пространство версий алгоритм. В Дуда, Харт и Аист (2001) В тексте приводится простой пример, который хорошо иллюстрирует процесс, но возможность такого неуправляемого подхода методом проб и ошибок для решения более существенных проблем сомнительна.

Грамматический вывод с помощью генетических алгоритмов

Грамматическая индукция с использованием эволюционные алгоритмы это процесс развития представления грамматики целевого языка посредством некоторого эволюционного процесса. Формальные грамматики можно легко представить как древовидные структуры правил производства, которые могут быть подвергнуты эволюционным операторам. Алгоритмы такого рода происходят из генетическое программирование парадигма, созданная Джон Коза.[нужна цитата ] В других ранних работах над простыми формальными языками использовалось двоичное строковое представление генетических алгоритмов, но изначально иерархическая структура грамматик выражалась в EBNF язык сделал деревья более гибким подходом.

Коза представлял Лисп программы как деревья. Он смог найти аналоги генетическим операторам в стандартном наборе древовидных операторов. Например, замена поддеревьев эквивалентна соответствующему процессу генетического кроссовера, когда подстроки генетического кода трансплантируются в особь следующего поколения. Пригодность измеряется путем подсчета результатов функции кода Lisp. Подобные аналоги между древовидным представлением Lisp и представлением грамматик в виде деревьев сделали возможным применение методов генетического программирования для индукции грамматики.

В случае индукции грамматики трансплантация поддеревьев соответствует замене правил производства, которые позволяют анализировать фразы из некоторого языка. Оператор пригодности для грамматики основан на некоторой мере того, насколько хорошо он выполнял синтаксический анализ некоторой группы предложений из целевого языка. В древовидном представлении грамматики символ терминала правила продукции соответствует конечному узлу дерева. Его родительские узлы соответствуют нетерминальному символу (например, словосочетание или фразовый глагол ) в наборе правил. В конечном итоге корневой узел может соответствовать нетерминальному предложению.

Грамматический вывод с помощью жадных алгоритмов

Как все жадные алгоритмы, жадные алгоритмы вывода грамматики итеративно принимают решения, которые кажутся лучшими на данном этапе. Принятые решения обычно касаются таких вещей, как создание новых правил, удаление существующих правил, выбор правила, которое будет применяться или объединение некоторых существующих правил. Поскольку существует несколько способов определения «стадии» и «наилучшего», существует также несколько жадных алгоритмов вывода грамматики.

Эти контекстно-свободная грамматика алгоритмы генерации принимают решение после каждого считанного символа:

  • Алгоритм Лемпеля-Зива-Велча создает контекстно-свободную грамматику детерминированным способом, так что необходимо хранить только стартовое правило сгенерированной грамматики.
  • Sequitur и его модификации.

Эти контекстно-свободные алгоритмы генерации грамматики сначала читают всю заданную последовательность символов, а затем начинают принимать решения:

Распределенное обучение

Более свежий подход основан на распределенном обучении. Алгоритмы, использующие эти подходы, были применены к обучению контекстно-свободные грамматики и слегка контекстно-зависимые языки и доказали свою правильность и эффективность для больших подклассов этих грамматик.[6]

Изучение языки шаблонов

Angluin определяет шаблон быть "цепочкой постоянных символов из Σ и переменные символы из непересекающегося множества ". Язык такого шаблона - это набор всех его непустых базовых экземпляров, то есть всех строк, полученных в результате последовательной замены его переменных символов непустыми строками постоянных символов.[примечание 1]Выкройка называется описательный для конечного входного набора строк, если его язык минимален (относительно включения множества) среди всех языков шаблонов, входящих в состав входного набора.

Angluin предоставляет полиномиальный алгоритм для вычисления для заданного набора входных строк все описательные шаблоны в одной переменной. Икс.[заметка 2]С этой целью она строит автомат, представляющий все возможные подходящие шаблоны; используя сложные аргументы о длине слова, которые полагаются на Икс поскольку это единственная переменная, количество состояний может быть значительно сокращено.[7]

Erlebach et al. предоставить более эффективную версию алгоритма изучения паттернов Angluin, а также параллельную версию.[8]

Arimura et al. показывают, что языковой класс, полученный из ограниченного объединения шаблонов, может быть изучен за полиномиальное время.[9]

Теория паттернов

Теория паттернов, сформулированный Ульф Гренандер,[10] математический формализм описывать познание мира в виде шаблонов. Он отличается от других подходов к искусственный интеллект в том, что он не начинается с предписания алгоритмов и механизмов для распознавания и классификации шаблонов; скорее, он предписывает словарный запас, чтобы сформулировать и преобразовать концепции шаблонов точным языком.

Помимо нового алгебраического словаря, его статистический подход был новаторским, поскольку преследовал цель:

  • Определить скрытые переменные набора данных с использованием реальных данных, а не искусственных стимулов, что было обычным явлением в то время.
  • Сформулируйте априорные распределения для скрытых переменных и модели для наблюдаемых переменных, которые образуют вершины гиббсовского графа.
  • Изучите случайность и изменчивость этих графиков.
  • Создайте основные классы применяемых стохастических моделей, перечислив деформации шаблонов.
  • Синтезируйте (сэмплируйте) модели, а не просто анализируйте с их помощью сигналы.

Обширная по своему математическому охвату теория образов охватывает алгебру и статистику, а также локальные топологические и глобальные энтропийные свойства.

Приложения

Принцип грамматической индукции был применен к другим аспектам обработка естественного языка, и был применен (среди многих других проблем) к семантический анализ,[2] понимание естественного языка,[11] перевод на основе примеров,[12] морфема анализ и происхождение географических названий.[нужна цитата ] Грамматическая индукция также использовалась для сжатие данных без потерь[13] и статистические выводы через минимальная длина сообщения (MML) и минимальная длина описания (MDL) принципы.[нужна цитата ] Грамматическая индукция также использовалась в некоторых вероятностные модели овладения языком.[14]

Смотрите также

Примечания

  1. ^ Язык шаблона с как минимум двумя вхождениями одной и той же переменной не является регулярным из-за лемма о накачке.
  2. ^ Икс может встречаться несколько раз, но никакая другая переменная y может возникнуть

Рекомендации

  1. ^ а б де ла Игера, Колин (2010). Грамматический вывод: обучающие автоматы и грамматики (PDF). Кембридж: Издательство Кембриджского университета.
  2. ^ а б Квятковски, Том и др. "Лексическое обобщение в индукции грамматики CCG для семантического разбора. »Материалы конференции по эмпирическим методам обработки естественного языка. Ассоциация компьютерной лингвистики, 2011.
  3. ^ Кларк, Александр. "Неконтролируемая индукция стохастических контекстно-свободных грамматик с использованием распределительной кластеризации. "Труды семинара 2001 г. по компьютерному изучению естественного языка - Том 7. Ассоциация компьютерной лингвистики, 2001 г."
  4. ^ Дана Англуин (1987). «Изучение регулярных наборов на основе запросов и контрпримеров» (PDF). Информация и контроль. 75 (2): 87–106. CiteSeerX  10.1.1.187.9414. Дои:10.1016/0890-5401(87)90052-6. Архивировано из оригинал (PDF) на 2013-12-02.
  5. ^ Д’Улиция, А., Ферри, Ф., Грифони, П. (2011) "Обзор методов грамматического вывода для изучения естественного языка[постоянная мертвая ссылка ]", Обзор искусственного интеллекта, Vol. 36, No. 1, pp. 1–27.
  6. ^ Кларк и Эйро (2007) Журнал исследований в области машинного обучения; Рё Ёсинака (2011) Теоретическая информатика
  7. ^ Дана Англуин (1980). «Поиск общих шаблонов для набора строк». Журнал компьютерных и системных наук. 21: 46–62. Дои:10.1016/0022-0000(80)90041-0.
  8. ^ Т. Эрлебах; П. Россманиф; Х. Штадтерр; А. Стегер; Т. Цойгманн (1997). «Очень эффективное изучение языков шаблонов с одной переменной в среднем, параллельно и с помощью запросов». В М. Ли; А. Маруока (ред.). Proc. 8-й Международный семинар по теории алгоритмического обучения - ALT'97. LNAI. 1316. Springer. С. 260–276.
  9. ^ Хироки Аримура; Такеши Шинохара; Сэцуко Оцуки (1994). «Нахождение минимальных обобщений для объединений языков шаблонов и их применение к индуктивному выводу из положительных данных» (PDF). Proc. STACS 11. LNCS. 775. Springer. С. 649–660.[мертвая ссылка ]
  10. ^ Гренандер, Ульф и Майкл И. Миллер. Теория паттернов: от представления к выводу.[мертвая ссылка ] Vol. 1. Оксфорд: издательство Оксфордского университета, 2007.
  11. ^ Миллер, Скотт и др. "Модели скрытого понимания естественного языка. "Материалы 32-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 1994.
  12. ^ Браун, Ральф Д. "Индукция правила переноса для перевода на основе примеров. "Труды семинара MT Summit VIII по машинному переводу на основе примеров. 2001.
  13. ^ Чернявский, Нева и Ричард Ладнер. "Сжатие последовательностей ДНК на основе грамматики. »Рабочая группа DIMACS по преобразованию Барроуза-Уиллера 21 (2004).
  14. ^ Чейтер, Ник и Кристофер Д. Мэннинг. "Вероятностные модели языковой обработки и усвоения. »Тенденции в когнитивных науках 10.7 (2006): 335-344.

Источники