Конъюгировать приор - Conjugate prior

В Байесовская вероятность теория, если апостериорные распределения п(θ | Икс) находятся в одном семейство распределения вероятностей как априорное распределение вероятностей п(θ), тогда априорное и апостериорное называется сопряженные распределения, а приора называется сопряженный предшествующий для функция правдоподобия п(х | θ). Например, Гауссовский семья сопряжена сама с собой (или самосопряженный) по отношению к гауссовой функции правдоподобия: если функция правдоподобия является гауссовой, выбор гауссовского априорного значения по сравнению со средним будет гарантировать, что апостериорное распределение также будет гауссовым. Это означает, что гауссово распределение является сопряженным априорным значением вероятности, которое также является гауссовым. Понятие, а также термин «сопряженный априор» были введены Говард Райффа и Роберт Шлайфер в своей работе над Байесовская теория принятия решений.[1] Аналогичная концепция была открыта независимо Джордж Альфред Барнард.[2]

Рассмотрим общую проблему вывода (непрерывного) распределения для параметра θ с учетом некоторых данных или данных Икс. Из Теорема Байеса, апостериорное распределение равно произведению функции правдоподобия и ранее , нормализованное (разделенное) на вероятность данных :

Пусть функция правдоподобия считается фиксированной; функция правдоподобия обычно хорошо определяется из описания процесса генерации данных[пример необходим ]. Понятно, что разные варианты априорного распределения п(θ) может сделать интеграл более или менее трудным для вычисления, и произведение п(Икс|θ) × п(θ) может принимать ту или иную алгебраическую форму. Для некоторых вариантов априорного выбора апостериорная имеет ту же алгебраическую форму, что и апостериорная (обычно с разными значениями параметров). Такой выбор - сопряженный предшествующий.

Сопряженный априор - это алгебраическое удобство, дающее выражение в закрытой форме для заднего; иначе численное интегрирование может быть необходимо. Кроме того, сопряженные априорные значения могут дать интуицию, более прозрачно показывая, как функция правдоподобия обновляет предыдущее распределение.

Все члены экспоненциальная семья имеют сопряженные приоры.[3]

Пример

Форму предшествующего конъюгата обычно можно определить путем осмотра плотность вероятности или же функция массы вероятности распределения. Например, рассмотрим случайная переменная который состоит из количества успехов в Бернулли испытания с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальное распределение, с функцией масс вероятности вида

Обычный сопряженный априор - это бета-распространение с параметрами (, ):

куда и выбраны для отражения существующих убеждений или информации ( = 1 и = 1 даст равномерное распределение ) и Β() это Бета-функция действуя как нормализующая константа.

В контексте, и называются гиперпараметры (параметры предшествующей модели), чтобы отличить их от параметров базовой модели (здесь q). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, это означает, что гиперпараметров будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См. Общую статью о экспоненциальная семья, а также рассмотрим Распределение Уишарта, сопряженный предшествующий ковариационная матрица из многомерное нормальное распределение, например, когда речь идет о большой размерности.)

Если мы затем выберем эту случайную величину и получим s успехов и ж неудачи, у нас есть

что является еще одним бета-распределением с параметрами ( + s, + ж). Затем это апостериорное распределение можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли каждую дополнительную информацию по мере ее поступления.

Псевдо-наблюдения

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения как о соответствующих наблюдениях определенного числа псевдонаблюдения со свойствами, заданными параметрами. Например, значения и из бета-распространение можно рассматривать как соответствующий успехов и отказы, если для выбора оптимальной настройки параметра используется апостериорный режим, или успехов и отказы, если для выбора оптимальной настройки параметра используется апостериорное среднее. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь как в обеспечении интуиции за часто запутанными уравнениями обновления, так и в выборе разумных гиперпараметров для априорных.

Интерпретации

Аналогия с собственными функциями[нужна цитата ]

Конъюгированные приоры аналогичны собственные функции в теория операторов, в том смысле, что они представляют собой распределения, в которых «обусловливающий оператор» действует вполне понятным образом, рассматривая процесс перехода от предшествующего к последующему как оператор.

Как в собственных функциях, так и в сопряженных априорных функциях существует конечномерный пространство, которое сохраняется оператором: результат имеет ту же форму (в том же пространстве), что и вход. Это значительно упрощает анализ, поскольку в противном случае рассматривается бесконечномерное пространство (пространство всех функций, пространство всех распределений).

Однако процессы только аналогичны, а не идентичны: обусловливание не является линейным, поскольку пространство распределений не замкнуто под линейная комбинация, Только выпуклое сочетание, а задний только такой же форма как и предыдущее, не скалярное кратное.

Так же, как можно легко проанализировать, как линейная комбинация собственных функций развивается под действием оператора (потому что по отношению к этим функциям оператор имеет вид диагонализованный ), можно легко проанализировать, как выпуклая комбинация сопряженных априорных элементов эволюционирует при обусловливании; это вызывается с использованием гиперприор, и соответствует использованию плотность смеси конъюгированных приоров, а не единственного конъюгированного приора.

Динамическая система

Можно думать об обусловливании сопряженных априорных значений как об определении вида (дискретного времени) динамическая система: входящие данные из заданного набора гиперпараметров обновляют эти гиперпараметры, поэтому изменение гиперпараметров можно рассматривать как своего рода «эволюцию во времени» системы, соответствующую «обучению». Начало в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а скорее от данных с течением времени. Для связанных подходов см. Рекурсивная байесовская оценка и Ассимиляция данных.

Практический пример

Допустим, в вашем городе работает прокат автомобилей. Водители могут выгружать и забирать автомобили в любом месте в черте города. Найти и арендовать автомобили можно с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль на небольшом расстоянии от вашего домашнего адреса в любое время суток.

В течение трех дней вы просматриваете приложение в случайное время дня и обнаруживаете следующее количество автомобилей недалеко от вашего домашнего адреса:

Если предположить, что данные поступают из распределение Пуассона, мы можем вычислить максимальная вероятность оценка параметров модели, которая Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что будет доступен хотя бы один автомобиль:

Это распределение Пуассона, которое в скорее всего, сгенерировал наблюдаемые данные . Но данные также могли быть получены из другого распределения Пуассона, например один с , или же и т. д. На самом деле существует бесконечное число распределений Пуассона, которые мог сгенерировали наблюдаемые данные, и с относительно небольшим количеством точек данных мы должны быть совершенно не уверены в том, какое точное распределение Пуассона сгенерировало эти данные. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенных по их вероятности, с учетом наблюдаемых нами данных .

Обычно эта величина известна как апостериорное прогнозирующее распределение куда это новая точка данных, наблюдаемые данные и параметры модели. С помощью Теорема Байеса мы можем расширить такой, что Обычно этот интеграл сложно вычислить. Однако, если вы выберете сопряженное предварительное распределение , можно получить выражение в закрытой форме. Это столбец апостериорного прогноза в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем Гамма-распределение как наше предварительное распределение по скорости распределений Пуассона, то апостериорным прогнозом является отрицательное биномиальное распределение как видно из последнего столбца в таблице ниже. Гамма-распределение параметризуется двумя гиперпараметрами. которые мы должны выбрать. Глядя на графики гамма-распределения, выбираем , что кажется разумным приоритетом для среднего количества автомобилей. Выбор предварительных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.

Учитывая предшествующие гиперпараметры и мы можем вычислить апостериорные гиперпараметры и

Учитывая апостериорные гиперпараметры, мы можем, наконец, вычислить апостериорное предсказание

Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую принимает во внимание апостериорный прогноз.

Таблица сопряженных распределений

Позволять п обозначают количество наблюдений. Во всех приведенных ниже случаях предполагается, что данные состоят из п точки (которые будут случайные векторы в многомерных случаях).

Если функция правдоподобия принадлежит экспоненциальная семья тогда существует сопряженный априор, часто также в экспоненциальном семействе; видеть Экспоненциальное семейство: сопряженные распределения.

Когда функция правдоподобия представляет собой дискретное распределение

ВероятностьПараметры моделиСопряженное предварительное распределениеАприорные гиперпараметрыЗадние гиперпараметры[примечание 1]Интерпретация гиперпараметровЗадний прогностический[заметка 2]
Бернуллип (вероятность)Бета успехи, неудачи[заметка 3]
Биномиальныйп (вероятность)Бета успехи, неудачи[заметка 3]
(бета-бином )
Отрицательный бином
с известным номером отказа, р
п (вероятность)Бета общие успехи, неудачи[заметка 3] (т.е. эксперименты, предполагающие остается фиксированным)

(бета-отрицательный бином)

Пуассонλ (ставка)Гамма всего вхождений в интервалы
(отрицательный бином )
[примечание 4] всего вхождений в интервалы
(отрицательный бином )
Категоричныйп (вектор вероятности), k (количество категорий; т.е. размер п)Дирихле куда это количество наблюдений в категории я вхождения категории [заметка 3]
Полиномиальныйп (вектор вероятности), k (количество категорий; т.е. размер п)Дирихле вхождения категории [заметка 3]
(Дирихле-полиномиальный )
Гипергеометрический
с известной общей численностью населения, N
M (количество целевых участников)Бета-биномиальный[4] успехи, неудачи[заметка 3]
Геометрическийп0 (вероятность)Бета эксперименты, полные отказы[заметка 3]

Когда функция правдоподобия представляет собой непрерывное распределение

ВероятностьПараметры моделиСопряженное предварительное распределениеАприорные гиперпараметрыЗадние гиперпараметры[примечание 1]Интерпретация гиперпараметровЗадний прогностический[примечание 5]
Нормальный
с известной дисперсией σ2
μ (иметь в виду)Нормальныйсреднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним [5]
Нормальный
с известной точностью τ
μ (иметь в виду)Нормальныйсреднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним [5]
Нормальный
с известным средним μ
σ2 (дисперсия)Обратная гамма [примечание 6]дисперсия оценивалась из наблюдения с выборочной дисперсией (т.е. с суммой квадратичные отклонения , где отклонения от известного среднего )[5]
Нормальный
с известным средним μ
σ2 (дисперсия)Масштабированный обратный хи-квадратдисперсия оценивалась из наблюдения с выборочной дисперсией [5]
Нормальный
с известным средним μ
τ (точность)Гамма[примечание 4]точность оценивалась из наблюдения с выборочной дисперсией (т.е. с суммой квадратичные отклонения , где отклонения от известного среднего )[5]
Нормальный[примечание 7]μ и σ2
Предполагая возможность обмена
Нормально-обратная гамма
  • выборочное среднее
среднее было оценено из наблюдения с выборочным средним ; дисперсия оценивалась из наблюдения с выборочным средним и сумма квадратичные отклонения [5]
Нормальныйμ и τ
Предполагая возможность обмена
Нормальная гамма
  • выборочное среднее
среднее было оценено из наблюдения с выборочным средним , а точность оценивалась по наблюдения с выборочным средним и сумма квадратичные отклонения [5]
Многомерный нормальный с известной ковариационной матрицей Σμ (средний вектор)Многомерный нормальный
  • выборочное среднее
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним [5]
Многомерный нормальный с известной матрицей точности Λμ (средний вектор)Многомерный нормальный
  • выборочное среднее
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним [5]
Многомерный нормальный с известным средним μΣ (ковариационная матрица)Инверс-Уишартковариационная матрица оценивалась из наблюдения с суммой произведений попарных отклонений [5]
Многомерный нормальный с известным средним μΛ (матрица точности)Wishartковариационная матрица оценивалась из наблюдения с суммой произведений попарных отклонений [5]
Многомерный нормальныйμ (средний вектор) и Σ (ковариационная матрица)нормальный-обратный-Уишарт
  • выборочное среднее
среднее было оценено из наблюдения с выборочным средним ; ковариационная матрица оценивалась из наблюдения с выборочным средним и с суммой произведений попарных отклонений [5]
Многомерный нормальныйμ (средний вектор) и Λ (матрица точности)нормальный-Wishart
  • выборочное среднее
среднее было оценено из наблюдения с выборочным средним ; ковариационная матрица оценивалась из наблюдения с выборочным средним и с суммой произведений попарных отклонений [5]
УниформаПарето наблюдения с максимальным значением
Парето
с известным минимумом Иксм
k (форма)Гамма наблюдения с суммой из порядок величины каждого наблюдения (т.е. логарифм отношения каждого наблюдения к минимальному )
Weibull
с известной формой β
θ (шкала)Обратная гамма[4] наблюдения с суммой из β '-я степень каждого наблюдения
Лог-нормальныйТо же, что и для нормального распределения после возведения данных в степень.
Экспоненциальныйλ (ставка)Гамма [примечание 4] наблюдения, которые в сумме [6]
(Распределение Lomax )
Гамма
с известной формой α
β (ставка)Гамма наблюдения с суммой [примечание 8]
Обратная гамма
с известной формой α
β (обратная шкала)Гамма наблюдения с суммой
Гамма
с известной скоростью β
α (форма) или же наблюдения ( для оценки , для оценки ) с продуктом
Гамма [4]α (форма), β (обратная шкала) был оценен из наблюдения с продуктом ; был оценен из наблюдения с суммой

Смотрите также

Примечания

  1. ^ а б Обозначается теми же символами, что и предыдущие гиперпараметры, с добавленными штрихами ('). Например обозначается
  2. ^ Это апостериорное прогнозирующее распределение новой точки данных учитывая наблюдаемые точки данных, с параметрами маргинализованный. Переменные с штрихами указывают апостериорные значения параметров.
  3. ^ а б c d е ж грамм Точная интерпретация параметров бета-распространение с точки зрения количества успехов и неудач зависит от того, какая функция используется для извлечения точечной оценки из распределения. Среднее значение бета-распределения равно что соответствует успехов и отказов, пока режим что соответствует успехов и неудачи. Байесовцы обычно предпочитают использовать апостериорное среднее, а не апостериорную моду в качестве точечной оценки, оправдываемой квадратичной функцией потерь, и использованием и математически удобнее, а использование и имеет то преимущество, что униформа Prior соответствует 0 успехам и 0 неудачам. Те же проблемы применимы к Распределение Дирихле.
  4. ^ а б c β - ставка или обратная шкала. При параметризации гамма-распределение,θ = 1/β и k = α.
  5. ^ Это апостериорное прогнозирующее распределение новой точки данных учитывая наблюдаемые точки данных, с параметрами маргинализованный. Переменные с штрихом обозначают апостериорные значения параметров. и обратитесь к нормальное распределение и Распределение Стьюдента, соответственно, или многомерное нормальное распределение и многомерное t-распределение в многомерных случаях.
  6. ^ Что касается обратная гамма, это масштабный параметр
  7. ^ Другая сопряженная априорная величина для неизвестного среднего и дисперсии, но с фиксированной линейной зависимостью между ними, находится в нормальная смесь средних дисперсий, с обобщенный обратный гауссовский как распределение при смешивании конъюгатов.
  8. ^ это составное гамма-распределение; вот обобщенное бета-простое распределение.

Рекомендации

  1. ^ Говард Райффа и Роберт Шлайфер. Прикладная статистическая теория принятия решений. Отдел исследований, Высшая школа делового администрирования, Гарвардский университет, 1961 год.
  2. ^ Джефф Миллер и др. Самые ранние известные варианты использования некоторых слов математики, "сопряженные априорные распределения". Электронный документ, редакция от 13 ноября 2005 г., извлечена 2 декабря 2005 г.
  3. ^ Каталог см. Гельман, Андрей; Карлин, Джон Б .; Стерн, Хэл С .; Рубин, Дональд Б. (2003). Байесовский анализ данных (2-е изд.). CRC Press. ISBN  1-58488-388-X.
  4. ^ а б c Финк, Дэниел (май 1997 г.). "Сборник сопряженных приоров" (PDF). CiteSeerX  10.1.1.157.5540. Архивировано из оригинал (PDF) 29 мая 2009 г.
  5. ^ а б c d е ж грамм час я j k л м Мерфи, Кевин П. (2007), Сопряженный байесовский анализ распределения Гаусса (PDF)
  6. ^ Статистическое машинное обучение, Хан Лю и Ларри Вассерман, 2014 г., стр. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf