Сравнение различных подходов к машинному переводу - Comparison of different machine translation approaches
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
Машинный перевод (MT) алгоритмы можно классифицировать по принципу действия. МП может основываться на наборе лингвистических правила, или на крупных телах (корпус) уже существующих параллельные тексты. Методологии, основанные на правилах, могут заключаться в прямом пословном переводе или оперировать более абстрактным представлением значения: представлением, специфичным для языковой пары или независимым от языка. интерлингва. Корпоративные методологии опираются на машинное обучение и может следовать конкретным примерам, взятым из параллельных текстов, или может рассчитывать статистические вероятности, чтобы выбрать предпочтительный вариант из всех возможных переводов.
Машинный перевод на основе правил и корпусов
Машинный перевод на основе правил (RBMT) генерируется на основе морфологического, синтаксического и семантического анализа исходного и целевого языков. Корпус машинный перевод (CBMT) генерируется на основе анализа двуязычный текст корпуса. Первый принадлежит области рационализма, а второй - эмпиризма. При наличии крупномасштабных и детализированных лингвистических правил системы RBMT способны выполнять переводы с приемлемым качеством, но построение системы требует очень много времени и трудозатрат, потому что такие лингвистические ресурсы должны создаваться вручную, что часто называют приобретение знаний проблема. Более того, очень сложно исправить ввод или добавить новые правила в систему для создания перевода. Напротив, добавление большего количества примеров в систему CBMT может улучшить систему, поскольку она основана на данных, хотя накопление и управление огромным двуязычным корпусом данных также может быть дорогостоящим.
Прямой, переводной и межъязыковой машинный перевод
Прямая, машинный перевод на основе переводов и межъязычный машинный перевод Все методы машинного перевода принадлежат RBMT, но различаются по глубине анализа исходного языка и степени, в которой они пытаются достичь независимого от языка представления значения или намерения между исходным и целевым языками. Их несходство можно, очевидно, наблюдать через треугольник Вокуа, который иллюстрирует эти уровни анализа.
Начиная с самого мелкого уровня внизу, прямой перевод сделано на уровне слов. В зависимости от нахождения прямых соответствий между лексическими единицами исходного языка и целевого языка DMT представляет собой пословный перевод с некоторыми простыми грамматическими корректировками. Система DMT разработана для конкретной пары исходного и целевого языков, и единицей перевода обычно является слово. Затем выполняется перевод представлений структуры и значения исходного предложения соответственно с помощью синтаксического и семантического подходов передачи.
А машинный перевод на основе переводов Система включает три этапа. На первом этапе производится анализ исходного текста и преобразование его в абстрактные представления; второй этап преобразует их в эквивалентные представления, ориентированные на целевой язык; а третий генерирует окончательный целевой текст. Представление индивидуально для каждой языковой пары. Стратегию передачи можно рассматривать как «практический компромисс между эффективным использованием ресурсов межъязыковых систем и простотой внедрения прямых систем».
Наконец, на межъязычный уровень, понятие передачи заменяется интерлингва. IMT работает в два этапа: анализ SL-текста в абстрактное универсальное, независимое от языка представление значения, то есть интерлингва, который является этапом анализа; генерирование этого значения с помощью лексических единиц и синтаксических конструкций TL, что является фазой синтеза. Теоретически, чем выше треугольник, тем меньше затраты на анализ и синтез. Например, для преобразования одного SL в N TL требуется (1 + N) шагов с использованием промежуточного языка по сравнению с N шагами передачи. Но для перевода всех языков требуется всего 2N шагов при использовании подхода IMT по сравнению с N² при использовании подхода TBMT, что является значительным сокращением. Хотя не требуется создавать компонент переноса для каждой языковой пары, используя подход IMT, определение интерлингва представляет большие трудности и даже, возможно, невозможно для более широкой области.
Статистический и основанный на примерах машинный перевод
Статистический машинный перевод (SMT) создается на основе статистических моделей, параметры которых получены из анализа двуязычных текстовых корпусов. Исходная модель SMT, основанная на Теорема Байеса, предложенный Brown et al. придерживается точки зрения, что каждое предложение на одном языке является возможным переводом любого предложения на другой, и наиболее подходящим является перевод, которому система присвоила наибольшую вероятность. Машинный перевод на основе примеров (EBMT) характеризуется использованием двуязычного корпуса с параллельными текстами в качестве основного знания, в котором перевод по аналогии является основной идеей. В EBMT есть четыре задачи: пример получения, пример базы и управления, пример приложения и синтез.
Оба, принадлежащие CBMT, иногда называемые MT, управляемым данными, EBMT и SMT имеют нечто общее, что отличает их от RBMT. Во-первых, они оба используют битекст как фундаментальный источник данных. Во-вторых, они оба являются эмпирическими с принципом машинного обучения, а не рациональными с принципом написания правил лингвистов. В-третьих, их можно улучшить, получив больше данных. В-четвертых, новые языковые пары можно разработать, просто найдя подходящие параллельные данные корпуса, если это возможно. Помимо этих сходств, есть также некоторые различия. SMT в основном использует статистические данные, такие как параметры и вероятности, полученные из бит-текста, в которых важна предварительная обработка данных, и даже если входные данные находятся в обучающих данных, такой же перевод не гарантируется. Напротив, EBMT использует битекст в качестве основного источника данных, в котором предварительная обработка данных является необязательной, и если входные данные находятся в наборе примеров, должна произойти такая же трансляция.
Рекомендации
- Нано Гоф и Энди Уэй. 2004. "Контрольный перевод на основе примеров". В материалах девятого семинара EAMT, Валлетта, Мальта, стр. 73–81.
- Жан, Сенелларт (2006). «Совершенствование системы машинного перевода на основе лингвистических правил с помощью корпусных подходов». Цитировать журнал требует
| журнал =
(помощь) - А, Ламперт (2004). «Интерлингва в машинном переводе». Технический отчет.
- Решеф, Шилон (2011). «Машинный перевод на основе переноса между морфологически богатыми и бедными ресурсами языками: на примере иврита и арабского языка». Цитировать журнал требует
| журнал =
(помощь) - Сомерс, Х. (1999). «Обзорная статья: Машинный перевод на основе примеров». Машинный перевод. 14 (2): 113–157. Дои:10.1023 / а: 1008109312730.
- Трухильо, А. (1999). Системы перевода: методы машинного перевода. Лондон: Спрингер. ISBN 9781447105879.
- Энди, Уэй; Нано Гоф (2005). «Сравнение машинного перевода на основе примеров и статистического». Инженерия естественного языка.