Дивергенция (статистика) - Divergence (statistics)
В статистика и информационная геометрия, расхождение или функция контраста это функция, которая устанавливает "расстояние" одного распределение вероятностей к другому на статистическое многообразие. Дивергенция - более слабое понятие, чем у расстояние, в частности, расхождение не обязательно должно быть симметричным (то есть, вообще говоря, расхождение от п к q не равно отклонению от q к п), и не обязательно удовлетворять неравенство треугольника.
Определение
Предполагать S это пространство всех распределения вероятностей с общей поддержкой. Затем расхождение на S это функция D(· || ·): S × S → р удовлетворение [1]
- D(п || q) ≥ 0 для всех п, q ∈ S,
- D(п || q) = 0 тогда и только тогда, когда п = q,
В двойная дивергенция D * определяется как
Геометрические свойства
Многие свойства расходимостей можно получить, если ограничить S быть статистическим многообразием, что означает, что его можно параметризовать с помощью конечномерной системы координат θ, так что для распределения п ∈ S мы можем написать п = п(θ).
За пару очков п, q ∈ S с координатами θп и θq, обозначим частные производные от D(п || q) в качестве
Теперь ограничим эти функции диагональю п = q, и обозначим [2]
По определению функция D(п || q) минимизируется при п = q, и поэтому
где матрица грамм(D) является положительный полуопределенный и определяет уникальный Риманова метрика на коллекторе S.
Расхождение D(· || ·) также определяет единственное кручение -свободный аффинная связь ∇(D) с коэффициентами
и двойной этой связи ∇ * порождается двойственной расходимостью D*.
Таким образом, расхождение D(· || ·) порождает на статистическом многообразии единственную дуалистическую структуру (грамм(D), ∇(D), ∇(D*)). Верно и обратное: каждая дуалистическая структура без кручения на статистическом многообразии индуцируется некоторой глобально определенной функцией дивергенции (которая, однако, не обязательно должна быть единственной).[3]
Например, когда D является f-расхождение для некоторой функции ƒ (·), то она порождает метрика грамм(Dж) = c · g и связь ∇(Dж) = ∇(α), куда грамм канонический Информационная метрика Fisher, ∇(α) это α-связь, c = ƒ ′ ′ (1), и α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1).
Примеры
Два наиболее важных расхождения - это относительная энтропия (Дивергенция Кульбака – Лейблера, KL дивергенция), что является центральным теория информации и статистика, и квадрат евклидова расстояния (САС). Минимизация этих двух расхождений - главный способ линейная обратная задача решаются через принцип максимальной энтропии и наименьших квадратов, особенно в логистическая регрессия и линейная регрессия.[4]
Двумя наиболее важными классами расхождений являются ж-расхождения и Расхождения Брегмана; однако в литературе встречаются и другие типы функций дивергенции. Единственное расхождение, которое одновременно ж-дивергенция и дивергенция Брегмана - дивергенция Кульбака – Лейблера; квадрат евклидовой дивергенции - это дивергенция Брегмана (соответствующая функции ), но не ж-расхождение.
f-расхождения
Это семейство расхождений порождается функциями ж(ты), выпуклая на ты > 0 и такой, что ж(1) = 0. Затем ж-дивергенция определяется как
| Дивергенция Кульбака – Лейблера: | |
| в квадрате Расстояние Хеллингера: | |
| Дивергенция Джеффриса: | |
| Чернова α-расходимость: | |
| экспоненциальное расхождение: | |
| Расхождение Кагана: | |
| (α,β) -расхождение продукта: |
Если Марковский процесс имеет положительное равновесное распределение вероятностей тогда - монотонная (невозрастающая) функция времени, где распределение вероятностей это решение Колмогоровские прямые уравнения (или же Главное уравнение ), используемый для описания временной эволюции распределения вероятностей в марковском процессе. Это означает, что все ж-дивергенции являются Функции Ляпунова прямых уравнений Колмогорова. Верно и обратное утверждение: если является функцией Ляпунова для всех цепей Маркова с положительным равновесием и имеет форму следа () тогда , для некоторой выпуклой функции ж.[5][6] Дивергенции Брегмана в общем случае не обладают таким свойством и могут увеличиваться в марковских процессах.
Расхождения Брегмана
Расходимости Брегмана соответствуют выпуклым функциям на выпуклых множествах. Учитывая строго выпуклый, непрерывно дифференцируемая функция F на выпуклый набор, известный как Генератор Брегмана, то Дивергенция Брегмана измеряет выпуклость: погрешность линейной аппроксимации F из q как приблизительное значение при п:
Двойная дивергенция к дивергенции Брегмана - это дивергенция, порожденная выпуклый сопряженный F* генератора Брегмана исходной дивергенции. Например, для квадрата евклидова расстояния генератор , а для относительной энтропии генератором является отрицательная энтропия .
История
Термин «дивергенция» для статистического расстояния использовался неформально в различных контекстах от c. 1910 до с. 1940. Его официальное использование датируется по крайней мере до Бхаттачарья (1943)под названием «О мере расхождения между двумя статистическими совокупностями, определяемыми их распределениями вероятностей», в котором Бхаттачарья расстояние, и Бхаттачарья (1946), озаглавленный «Об оценке расхождения между двумя полиномиальными популяциями», в котором Угол Бхаттачарьи. Этот термин был популяризирован его использованием для Дивергенция Кульбака – Лейблера в Кульбак и Лейблер (1951), его использование в учебнике Кульбак (1959), а затем Али и Сильви (1966) как правило, для класса ж-расхождения. Термин «расстояние Брегмана» все еще используется, но теперь предпочтение отдается «дивергенции Брегмана». В информационной геометрии изначально использовались альтернативные термины, в том числе «квазидистанция». Амари (1982), п. 369) и «функция контраста» Егучи (1985), хотя «дивергенция» использовалась в Амари (1985) для α-расходимость и стала стандартной (например, Амари и Цихоцкий (2010)).
Смотрите также
Рекомендации
- ^ Егучи (1985)
- ^ Егучи (1992)
- ^ Матумото (1993)
- ^ Чисар 1991.
- ^ Горбань, Павел А. (15 октября 2003 г.). «Монотонно эквивалентные энтропии и решение уравнения аддитивности». Physica A. 328 (3–4): 380–390. arXiv:cond-mat / 0304131. Дои:10.1016 / S0378-4371 (03) 00578-8.
- ^ Амари, Шуньити (2009). Leung, C.S .; Ли, М .; Чан, Дж. (ред.). Дивергенция, Оптимизация, Геометрия. 16-я Международная конференция по обработке нейронной информации (ICONIP 20009), Бангкок, Таиланд, 1-5 декабря 2009 г. Конспект лекций по информатике, том 5863. Берлин, Гейдельберг: Springer. С. 185--193. Дои:10.1007/978-3-642-10677-4_21.
- Амари, Шун-ичи; Нагаока, Хироши (2000). Методы информационной геометрии. Издательство Оксфордского университета. ISBN 0-8218-0531-2.
- Егучи, синтоизм (1985). «Дифференциально-геометрический подход к статистическому выводу на основе функционалов контраста». Математический журнал Хиросимы. 15 (2): 341–391. Дои:10.32917 / hmj / 1206130775.
- Егучи, синтоизм (1992). «Геометрия минимального контраста». Математический журнал Хиросимы. 22 (3): 631–647. Дои:10.32917 / hmj / 1206128508.
- Матумото, Такао (1993). «Любое статистическое многообразие имеет функцию контраста - на C³-функциях, принимающих минимум на диагонали многообразия-произведения». Математический журнал Хиросимы. 23 (2): 327–332. Дои:10.32917 / hmj / 1206128255.