Модель Katzs Back-Off - Katzs back-off model

Кац отступление является генеративным п-грамма языковая модель это оценивает условная возможность слова, учитывая его историю в п-грамм. Он выполняет эту оценку отступление через все более короткие модели истории при определенных условиях.^[1] Таким образом, модель с наиболее надежной информацией о данной истории используется для получения лучших результатов.

Модель была представлена в 1987 году Славой М. Кац. До этого языковые модели n-граммов были построены путем обучения отдельных моделей для различных порядков n-граммов с использованием оценки максимального правдоподобия и последующей их совместной интерполяции.

Метод

Уравнение модели отката Каца: ^[2]

{ displaystyle { begin {align} & P_ {bo} (w_ {i} mid w_ {i-n + 1} cdots w_ {i-1}) [4pt] = {} & { begin { case} d_ {w_ {i-n + 1} cdots w_ {i}} { dfrac {C (w_ {i-n + 1} cdots w_ {i-1} w_ {i})} {C ( w_ {i-n + 1} cdots w_ {i-1})}} & { text {if}} C (w_ {i-n + 1} cdots w_ {i})> k [10pt ] alpha _ {w_ {i-n + 1} cdots w_ {i-1}} P_ {bo} (w_ {i} mid w_ {i-n + 2} cdots w_ {i-1}) & { text {иначе}} end {case}} end {align}}}

куда

C(Икс) = количество раз Икс появляется на тренировках

ш_я = яое слово в данном контексте

По сути, это означает, что если п-грамму было просмотрено более k раз в обучении условная вероятность слова с учетом его истории пропорциональна максимальная вероятность оценка этого п-грамм. В противном случае условная вероятность равна условной вероятности отсрочки (п - 1) -грамм.

Более сложная часть - это определение значений для k, d иα.

${ displaystyle k}$ наименее важный из параметров. Обычно его выбирают равным 0. Однако эмпирическое тестирование может найти лучшие значения для k.

${ displaystyle d}$ обычно сумма дисконтирования, найденная Гуд – Тьюринг оценка. Другими словами, если оценки Гуда – Тьюринга ${ displaystyle C}$ в качестве ${ displaystyle C ^ {*}}$ , тогда ${ displaystyle d = { frac {C ^ {*}} {C}}}$

Вычислить ${ displaystyle alpha}$ , полезно сначала определить величину β, которая представляет собой остаточную вероятностную массу для (п - 1) -грамма:

{ displaystyle beta _ {w_ {i-n + 1} cdots w_ {i-1}} = 1- sum _ { {w_ {i}: C (w_ {i-n + 1} cdots w_ {i})> k }} d_ {w_ {i-n + 1} cdots w_ {i}} { frac {C (w_ {i-n + 1} cdots w_ {i-1} w_ {i})} {C (w_ {i-n + 1} cdots w_ {i-1})}}}

Затем вес отката α вычисляется следующим образом:

{ displaystyle alpha _ {w_ {i-n + 1} cdots w_ {i-1}} = { frac { beta _ {w_ {i-n + 1} cdots w_ {i-1}} } { sum _ { {w_ {i}: C (w_ {i-n + 1} cdots w_ {i}) leq k }} P_ {bo} (w_ {i} mid w_ {i -n + 2} cdots w_ {i-1})}}}

Приведенная выше формула применима, только если есть данные для "(п - 1) -грамма ». Если нет, алгоритм полностью пропускает n-1 и использует оценку Каца для n-2. (И так далее, пока не будет найдена n-грамма с данными)

Обсуждение

Эта модель обычно хорошо работает на практике, но в некоторых случаях не работает. Например, предположим, что биграмма «a b» и униграмма «c» очень распространены, но триграмма «a b c» никогда не видна. Поскольку «a b» и «c» очень распространены, может иметь значение (то есть не случайно), что «a b c» никогда не встречается. Возможно, это не разрешено правилами грамматики. Вместо присвоения более подходящего значения 0 метод вернется к биграмме и оценит п(c | б), которое может быть слишком высоким.^[3]

Модель Katzs Back-Off - Katzs back-off model

Метод

Обсуждение

Рекомендации