Гибридный машинный перевод - Hybrid machine translation

Гибридный машинный перевод это метод машинный перевод для которого характерно использование нескольких подходов к машинному переводу в одной системе машинного перевода. Мотивация к разработке гибридных систем машинного перевода проистекает из неспособности какой-либо отдельной техники достичь удовлетворительного уровня точности. Многие гибридные системы машинного перевода преуспели в повышении точности переводов, и есть несколько популярных систем машинного перевода, в которых используются гибридные методы. Среди них ПРОМТ, SYSTRAN и Omniscien Technologies (бывшая Азия в Интернете).

Подходы

Многодвигательный

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода,[1] но были исследованы и другие комбинации. Например, исследователи из Университет Карнеги Меллон имели некоторый успех в сочетании на основе примеров, на основе перевода, основанные на знаниях и статистический подсистемы перевода в одну систему машинного перевода.[2]

Генерация статистических правил

Этот подход предполагает использование статистических данных для генерации лексический и синтаксический правила. Затем ввод обрабатывается по этим правилам, как если бы это был основанный на правилах переводчик.[1] Этот подход пытается избежать сложной и трудоемкой задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает многими проблемами обычного статистический машинный перевод, а именно, что точность перевода будет сильно зависеть от схожести вводимого текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на предметную область, и имеет те же трудности с адаптацией предметной области, как и многие другие. статистический машинный перевод системы.[3]

Многопроходный

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода: предварительная обработка вход с основанный на правилах система машинного перевода. Выходные данные препроцессора на основе правил передаются в статистический машинный перевод система, которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно сокращает количество человеческих усилий и трудозатрат, необходимых для создания системы.[4]

На основе уверенности

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда сбивается с толку механизм внимания.

Смотрите также

Рекомендации

  1. ^ а б Хатчинс, Дж. 2007. Машинный перевод: краткая история. Компьютерный перевод: теория и практика.
  2. ^ Хоган К. и Фредеркинг Р. 1998. Оценка многомоторной архитектуры машинного перевода. Конспект лекций по информатике, 1529, с. 113-123.
  3. ^ Чанг, Дж. И Су, К. 1997. Корпоративные исследования машинного перевода, ориентированные на статистику (CBSO), на Тайване. AMTA (1997), стр. 165--173.
  4. ^ Хови, Э. 1996. Углубление мудрости или компромиссные принципы? - гибридизация статистических и символических систем МП. Эксперт IEEE, 11 (2), стр. 16-18.