Заднее прогностическое распределение - Posterior predictive distribution

В Байесовская статистика, то апостериорное прогнозирующее распределение - это распределение возможных ненаблюдаемых значений, обусловленное наблюдаемыми значениями.[1][2]

Учитывая набор N i.i.d. наблюдения , новое значение будет взят из распределения, которое зависит от параметра :

Может показаться заманчивым включить одну лучшую оценку за , но при этом игнорируется неопределенность относительно , и поскольку источник неопределенности игнорируется, прогнозируемое распределение будет слишком узким. Экстремальные значения будет происходить чаще, чем предполагает апостериорное распределение.

Апостериорное прогнозирующее распределение учитывает неопределенность относительно . Апостериорное распределение возможных значения зависят от :

И апостериорное прогностическое распределение данный рассчитывается маргинализация распределение данный по апостериорному распределению данный :

Потому что это объясняет неуверенность в , апостериорное прогнозное распределение в целом будет шире, чем прогнозное распределение, которое включает единственную наилучшую оценку для .

Предыдущее и апостериорное прогнозное распределение

В предварительное прогнозное распределениев байесовском контексте - это распределение точки данных, маргинализованное по сравнению с предыдущим распределением. То есть, если и , то предварительное прогнозируемое распределение является соответствующим распределением , куда

Это похоже на апостериорное прогнозирующее распределение, за исключением того, что маргинализация (или, что эквивалентно, ожидание) берется по отношению к апостериорному распределению вместо апостериорного распределения.

Кроме того, если предыдущее распределение это сопряженный предшествующий, то апостериорное прогнозирующее распределение будет принадлежать к тому же семейству распределений, что и предыдущее прогнозирующее распределение. Это легко увидеть. Если предыдущее распространение сопряжена, то

т.е. апостериорное распределение также принадлежит но просто с другим параметром вместо исходного параметра Потом,

Следовательно, апостериорное прогнозирующее распределение следует тому же распределению. ЧАС как предварительное прогнозирующее распределение, но с апостериорными значениями гиперпараметров, замененными предыдущими.

Предыдущее прогнозируемое распределение имеет вид составное распределение, и на самом деле часто используется определять а составное распределение, из-за отсутствия каких-либо усложняющих факторов, таких как зависимость от данных и вопрос о сопряженности. Например, Распределение Стьюдента возможно определенный как предварительное прогнозирующее распределение нормальное распределение с известными иметь в виду μ но неизвестно отклонение σИкс2, с сопряженным предшествующим масштабированное обратное распределение хи-квадрат размещены на σИкс2, с гиперпараметрами ν и σ2. Полученное распределение соединения действительно нестандартный Распределение Стьюдента, и следует одной из двух наиболее распространенных параметризаций этого распределения. Тогда соответствующее апостериорное прогнозирующее распределение снова будет t Стьюдента с обновленными гиперпараметрами. которые появляются в апостериорном распределении, а также прямо появляются в апостериорном прогнозирующем распределении.

В некоторых случаях соответствующее составное распределение определяется с использованием другой параметризации, чем та, которая была бы наиболее естественной для прогнозных распределений в текущей рассматриваемой проблеме. Часто это происходит из-за того, что предыдущее распределение, используемое для определения составного распределения, отличается от того, которое используется в текущей задаче. Например, как указано выше, Распределение Стьюдента был определен в терминах масштабированное обратное распределение хи-квадрат размещено на дисперсии. Однако чаще используется обратное гамма-распределение как сопряженный приор в этой ситуации. На самом деле они эквивалентны, за исключением параметризации; следовательно, t-распределение Стьюдента все еще можно использовать для любого прогнозирующего распределения, но гиперпараметры должны быть повторно параметризованы перед подключением.

В экспоненциальных семьях

Большинство, но не все, общие семейства дистрибутивов принадлежат экспоненциальная семья раздач. Экспоненциальные семейства обладают большим количеством полезных свойств. Один из них заключается в том, что у всех участников есть сопряженный предшествующий распределения - тогда как очень немногие другие дистрибутивы имеют сопряженные априоры.

Априорное прогнозное распределение в экспоненциальных семьях

Еще одно полезное свойство: функция плотности вероятности из составное распределение соответствующий предыдущему прогнозируемому распределению экспоненциальная семья распределение маргинализованный над его сопряженный предшествующий распределение можно определить аналитически. Предположить, что является членом экспоненциального семейства с параметром который параметризуется в соответствии с естественный параметр , и распределяется как

пока соответствующий априорный конъюгат, распределенный как

Тогда предыдущее прогнозирующее распределение (результат сложения с ) является

Последняя строка следует из предыдущей, поскольку функция внутри интеграла является функцией плотности случайной величины, распределенной как , за исключением нормализация функция . Следовательно, результат интегрирования будет обратным нормировочной функции.

Приведенный выше результат не зависит от выбора параметризации , поскольку ни один из , и появляется. ( является функцией параметра и, следовательно, будет принимать различные формы в зависимости от выбора параметризации.) Для стандартного выбора и , часто проще работать напрямую с обычными параметрами, чем переписывать их естественные параметры.

Причина, по которой интеграл поддается обработке, заключается в том, что он включает в себя вычисление константа нормализации плотности, определяемой произведением предварительное распространение и вероятность. Когда двое сопрягать, продукт апостериорное распределение, и по предположению нормировочная постоянная этого распределения известна. Как показано выше, функция плотности составного распределения следует определенной форме, состоящей из произведения функции который является частью функции плотности для , с отношением двух форм нормировочной «константы» для , один получен из априорного распределения, а другой - из апостериорного распределения. В бета-биномиальное распределение - хороший пример того, как работает этот процесс.

Несмотря на аналитическую податливость таких распределений, они сами по себе обычно не являются членами экспоненциальная семья. Например, трехпараметрический Распределение Стьюдента, бета-биномиальное распределение и Дирихле-полиномиальное распределение являются предсказательными распределениями экспоненциального семейства ( нормальное распределение, биномиальное распределение и полиномиальные распределения соответственно), но ни один из них не принадлежит к экспоненциальному семейству. Это видно выше из-за наличия функциональной зависимости от . В экспоненциальном семейном распределении должна быть возможность разделить всю функцию плотности на мультипликативные множители трех типов: (1) факторы, содержащие только переменные, (2) факторы, содержащие только параметры, и (3) факторы, логарифм которых разлагается между переменными. и параметры. Наличие делает это невозможным, если "нормализующая" функция либо полностью игнорирует соответствующий аргумент, либо использует его только в показателе степени выражения.

Апостериорное прогностическое распределение в экспоненциальных семьях

Когда используется сопряженное предварительное распределение, апостериорное прогнозирующее распределение принадлежит к тому же семейству, что и предыдущее прогнозирующее распределение, и определяется просто путем включения обновленных гиперпараметров для апостериорного распределения параметра (ов) в формулу для предварительного прогнозного распределения. . Используя общую форму уравнений апостериорного обновления для распределений экспоненциального семейства (см. соответствующий раздел в статье экспоненциального семейства ), мы можем выписать явную формулу для апостериорного прогнозного распределения:

куда

Это показывает, что апостериорное прогнозирующее распределение серии наблюдений в случае, когда наблюдения следуют экспоненциальная семья с соответствующими сопряженный предшествующий, имеет ту же плотность вероятности, что и составное распределение, с параметрами, указанными выше. Сами наблюдения вводятся только в форме

Это называется достаточная статистика наблюдений, потому что он сообщает нам все, что нам нужно знать о наблюдениях, чтобы вычислить апостериорное или апостериорное прогнозирующее распределение на их основе (или, если на то пошло, что-нибудь еще, основанное на вероятность наблюдений, таких как предельная вероятность ).

Совместное прогнозирующее распределение, предельное правдоподобие

Также можно рассмотреть результат сложения совместного распределения по фиксированному числу независимые одинаково распределенные образцы с предварительным распределением по общему параметру. В байесовской среде это возникает в различных контекстах: вычисление предварительного или апостериорного прогнозирующего распределения нескольких новых наблюдений и вычисление предельная вероятность наблюдаемых данных (знаменатель в Закон Байеса ). Когда распределение образцов происходит из экспоненциального семейства, а предварительное распределение является сопряженным, полученное распределение соединений будет управляемым и будет следовать форме, аналогичной приведенному выше выражению. В самом деле, легко показать, что совместное составное распределение набора за наблюдения

Этот результат и приведенный выше результат для одного составного распределения тривиально распространяются на случай распределения по векторному наблюдению, например многомерное распределение Гаусса.

Отношение к выборке Гиббса

Сворачивание узла в свернутый сэмплер Гиббса эквивалентно компаундирование. В результате, когда набор независимые одинаково распределенные (i.i.d.) все узлы зависят от одного и того же предыдущего узла, и этот узел сворачивается, в результате условная возможность одного узла с учетом других, а также родителей свернутого узла (но не обусловливающего какие-либо другие узлы, например, любые дочерние узлы), совпадает с апостериорным прогнозирующим распределением всех оставшихся i.i.d. узлы (или, точнее, ранее i.i.d. узлы, так как сворачивание вводит зависимости между узлами). То есть, как правило, можно реализовать свертывание узла, просто прикрепив всех родителей узла непосредственно ко всем дочерним элементам и заменив прежнее условное распределение вероятностей, связанное с каждым дочерним элементом, соответствующим апостериорным прогнозирующим распределением для дочернего элемента, обусловленным его родители и другой бывший iid узлы, которые также были дочерними по отношению к удаленному узлу. Например, для более подробного обсуждения и некоторых предупреждений по некоторым сложным вопросам см. Дирихле-полиномиальное распределение статья.

Смотрите также

Рекомендации

  1. ^ «Апостериорное прогнозирующее распространение». SAS. Получено 19 июля 2014.
  2. ^ Гельман А., Карлин Дж. Б., Стерн Х. С., Дансон Д. Б., Вехтари А., Рубин Д. Б. (2014) Байесовский анализ данных, Чепмен и Холл, стр. 7