Процесс Дирихле - Dirichlet process

Рисунки из процесса Дирихле

{displaystyle operatorname {DP} (N (0,1), альфа)}

. Четыре строки используют разные альфы

{displaystyle alpha}

(сверху вниз: 1, 10, 100 и 1000), и каждая строка содержит три повтора одного и того же эксперимента. Как видно из графиков, отрисовки процесса Дирихле представляют собой дискретные распределения, и они становятся менее концентрированными (более разбросанными) с увеличением

{displaystyle alpha}

. Графики были построены с использованием ломка палки взгляд на процесс Дирихле.

В теория вероятности, Процессы Дирихле (после Питер Густав Лежен Дирихле ) являются семьей случайные процессы чей реализации находятся распределения вероятностей. Другими словами, процесс Дирихле - это распределение вероятностей, диапазон которого сам по себе является набором распределений вероятностей. Часто используется в Байесовский вывод описать прежний знание о распределении случайные переменные - насколько вероятно, что случайные величины распределены согласно тому или иному определенному распределению.

Процесс Дирихле задается базовым распределением ${displaystyle H}$ и положительный настоящий номер ${displaystyle alpha}$ называется параметром концентрации (также известным как параметр масштабирования). Базовое распределение - это ожидаемое значение процесса, то есть процесс Дирихле рисует распределения «вокруг» базового распределения, как нормальное распределение рисует вещественные числа вокруг своего среднего значения. Однако даже если базовое распределение непрерывный, распределения, полученные из процесса Дирихле, имеют вид почти наверняка дискретный. Параметр масштабирования указывает, насколько сильна эта дискретизация: в пределах ${displaystyle alpha ightarrow 0}$ , все реализации сосредоточены на одном значении, а в пределе ${displaystyle alpha ightarrow infty}$ реализации становятся непрерывными. Между этими двумя крайностями реализации представляют собой дискретные распределения с все меньшей и меньшей концентрацией, поскольку ${displaystyle alpha}$ увеличивается.

Процесс Дирихле можно также рассматривать как бесконечномерное обобщение Распределение Дирихле. Так же, как и распределение Дирихле, сопряженный предшествующий для категориальное распределение, процесс Дирихле является сопряженным для бесконечности априорным, непараметрический дискретные распределения. Особенно важно применение процессов Дирихле в качестве априорная вероятность распространение в бесконечные модели смеси.

Процесс Дирихле был официально представлен Томасом Фергюсоном в 1973 году.^[1]и с тех пор применяется в сбор данных и машинное обучение, среди прочего для обработка естественного языка, компьютерное зрение и биоинформатика.

Вступление

Процессы Дирихле обычно используются при моделировании данных, которые имеют тенденцию повторять предыдущие значения в так называемой манере «богатые становятся богатыми». В частности, предположим, что генерация значений ${displaystyle X_ {1}, X_ {2}, точки}$ можно смоделировать по следующему алгоритму.

Вход:

{displaystyle H}

(распределение вероятностей, называемое базовым распределением),

{displaystyle alpha}

(положительное действительное число, называемое параметр масштабирования )

За

{displaystyle ngeq 1}

:

а) С вероятностью ${displaystyle {frac {alpha} {alpha + n-1}}}$ рисовать ${displaystyle X_ {n}}$ из ${displaystyle H}$ .

б) С вероятностью ${displaystyle {frac {n_ {x}} {alpha + n-1}}}$ набор ${displaystyle X_ {n} = x}$ , куда ${displaystyle n_ {x}}$ это количество предыдущих наблюдений ${displaystyle x}$ .
(Формально, ${displaystyle n_ {x}: = | {j: X_ {j} = x {ext {and}} j$ куда ${displaystyle | cdot |}$ обозначает количество элементов в наборе.)

В то же время другая распространенная модель данных состоит в том, что наблюдения ${displaystyle X_ {1}, X_ {2}, точки}$ считаются независимые и одинаково распределенные (i.i.d.) согласно некоторому (случайному) распределению ${displaystyle P}$ . Цель введения процессов Дирихле - дать возможность описать описанную выше процедуру в этом i.i.d. модель.

В ${displaystyle X_ {1}, X_ {2}, точки}$ наблюдения в алгоритме не независимый, так как мы должны учитывать предыдущие результаты при генерации следующего значения. Однако они обмениваемый. Этот факт можно показать, рассчитав совместное распределение вероятностей наблюдений и заметив, что итоговая формула зависит только от того, ${displaystyle x}$ значения встречаются среди наблюдений и сколько повторов у каждого из них. Из-за этой возможности обмена Теорема де Финетти о представлении применяется, и это означает, что наблюдения ${displaystyle X_ {1}, X_ {2}, dots}$ находятся условно независимый учитывая (скрытое) распределение ${displaystyle P}$ . Этот ${displaystyle P}$ является случайной величиной и имеет распределение. Это распределение (по распределениям) называется процессом Дирихле ( ${displaystyle operatorname {DP}}$ ). Таким образом, это означает, что мы получаем процедуру, эквивалентную вышеуказанному алгоритму:

Нарисуйте раздачу ${displaystyle P}$ из ${displaystyle operatorname {DP} left (H, alpha ight)}$
Нарисуйте наблюдения ${displaystyle X_ {1}, X_ {2}, точки}$ независимо от ${displaystyle P}$ .

На практике, однако, рисование конкретного распределения ${displaystyle P}$ невозможно, так как для его уточнения требуется бесконечное количество информации. Это обычное явление в контексте байесовского непараметрическая статистика где типичной задачей является изучение распределений в функциональных пространствах, которые содержат бесконечно много параметров. Ключевой вывод состоит в том, что во многих приложениях бесконечномерные распределения появляются только как промежуточное вычислительное устройство и не требуются ни для начальной спецификации предшествующих убеждений, ни для утверждения окончательного вывода.

Формальное определение

Учитывая измеримый набор S, базовое распределение вероятностей ЧАС и положительный настоящий номер ${displaystyle alpha}$ , процесс Дирихле ${displaystyle operatorname {DP} (H, альфа)}$ это случайный процесс чей образец пути (или же реализация, т.е. бесконечная последовательность случайные вариации взятый из процесса) представляет собой распределение вероятностей по S, такое, что имеет место следующее. Для любого измеримого конечного раздел из S, обозначенный ${displaystyle {B_ {i}} _ {i = 1} ^ {n}}$ ,

{displaystyle {ext {if}} Имя оператора Xsim {DP} (H, альфа)}

{displaystyle {ext {then}} (X (B_ {1}), точки, X (B_ {n})) sim operatorname {Dir} (альфа H (B_ {1}), точки, альфа H (B_ {n })),}

куда ${displaystyle operatorname {Dir}}$ обозначает Распределение Дирихле и обозначение ${displaystyle Xsim D}$ означает, что случайная величина ${displaystyle X}$ имеет распространение ${displaystyle D}$ .

Альтернативные виды

Существует несколько эквивалентных взглядов на процесс Дирихле. Помимо формального определения выше, процесс Дирихле может быть определен неявно с помощью теоремы де Финетти, как описано в первом разделе; это часто называют Китайский ресторанный процесс. Третья альтернатива - это ломка палки, который конструктивно определяет процесс Дирихле, записывая распределение, выбранное из процесса, как ${displaystyle f (x) = sum _ {k = 1} ^ {infty} eta _ {k} delta _ {x_ {k}} (x)}$ , куда ${displaystyle {x_ {k}} _ {k = 1} ^ {infty}}$ образцы из базового распределения ${displaystyle H}$ , ${displaystyle delta _ {x_ {k}}}$ является индикаторная функция сосредоточен на ${displaystyle x_ {k}}$ (ноль везде, кроме ${displaystyle delta _ {x_ {k}} (x_ {k}) = 1}$ ) и ${displaystyle eta _ {k}}$ определяются рекурсивной схемой, которая многократно выбирает из бета-распространение ${displaystyle operatorname {Beta} (1, альфа)}$ .

Китайский ресторанный процесс

Анимация процесса китайского ресторана с параметром масштабирования

{displaystyle alpha = 0,5}

. Таблицы скрываются, когда клиенты таблицы больше не могут отображаться; однако за каждым столом бесконечно много мест. (Запись интерактивной анимации.^[2])

Широко используемая метафора процесса Дирихле основана на так называемом Китайский ресторанный процесс. Метафора выглядит следующим образом:

Представьте себе китайский ресторан, в который входят клиенты. Новый клиент садится за стол с вероятностью, пропорциональной количеству уже сидящих клиентов. Дополнительно заказчик открывает новую таблицу с вероятностью, пропорциональной параметру масштабирования. ${displaystyle alpha}$ . После ввода бесконечно большого числа клиентов получается распределение вероятностей по бесконечно большому количеству таблиц, которые нужно выбрать. Это распределение вероятностей по таблицам представляет собой случайную выборку вероятностей наблюдений, полученных из процесса Дирихле с параметром масштабирования. ${displaystyle alpha}$ .

Если кто-то из сотрудников извлекает из базовой меры ${displaystyle H}$ для каждой таблицы результирующее распределение по пространству выборки ${displaystyle S}$ представляет собой случайный образец процесса Дирихле. Китайский ресторанный процесс связан с Схема отбора проб из урны Pólya что дает выборки из конечных распределений Дирихле.

Поскольку клиенты сидят за столом с вероятностью, пропорциональной количеству клиентов, уже сидящих за столом, можно вывести два свойства DP:

Процесс Дирихле проявляет самоусиливающееся свойство: чем чаще выборка данного значения производилась в прошлом, тем больше вероятность, что оно будет выполнено снова.
Даже если ${displaystyle H}$ является распределением по бесчисленное множество существует ненулевая вероятность того, что две выборки будут иметь одно и то же значение, поскольку масса вероятности будет сосредоточена на небольшом количестве таблиц.

Процесс ломки палки

Третий подход к процессу Дирихле - это так называемая точка зрения на процесс разрушения палки. Помните, что результаты процесса Дирихле - это распределения по множеству ${displaystyle S}$ . Как отмечалось ранее, полученное распределение дискретно с вероятностью 1. В представлении процесса ломки палки мы явно используем дискретность и даем функция массы вероятности этого (случайного) дискретного распределения как:

{displaystyle f (heta) = sum _ {k = 1} ^ {infty} eta _ {k} cdot delta _ {heta _ {k}} (heta)}

куда ${displaystyle delta _ {heta _ {k}}}$ это индикаторная функция который везде равен нулю, кроме ${displaystyle delta _ {heta _ {k}} (heta _ {k}) = 1}$ . Поскольку это распределение само по себе является случайным, его функция масс параметризуется двумя наборами случайных величин: ${displaystyle left {heta _ {k} ight} _ {k = 1} ^ {infty}}$ и соответствующие вероятности ${displaystyle left {eta _ {k} ight} _ {k = 1} ^ {infty}}$ . Ниже мы без доказательства представляем, что это за случайные величины.

Локации ${displaystyle heta _ {k}}$ независимы и одинаково распределены согласно ${displaystyle H}$ , базовое распределение процесса Дирихле. Вероятности ${displaystyle eta _ {k}}$ даются процедурой, напоминающей ломку палки единичной длины (отсюда и название):

{displaystyle eta _ {k} = eta '_ {k} cdot prod _ {i = 1} ^ {k-1} left (1- eta' _ {i} ight)}

куда ${displaystyle eta '_ {k}}$ независимые случайные величины с бета-распространение ${displaystyle operatorname {Beta} (1, альфа)}$ . Сходство с «взломом палки» можно увидеть, рассмотрев ${displaystyle eta _ {k}}$ как длина куска палки. Мы начинаем с палки единичной длины и на каждом шаге отламываем часть оставшейся палки в соответствии с ${displaystyle eta '_ {k}}$ и назначьте этот отломанный кусок ${displaystyle eta _ {k}}$ . Формулу можно понять, заметив, что после первого k - 1 значениям присвоены части, длина оставшейся части палки равна ${displaystyle prod _ {i = 1} ^ {k-1} left (1- eta '_ {i} ight)}$ и этот кусок разбит согласно ${displaystyle eta '_ {k}}$ и назначается на ${displaystyle eta _ {k}}$ .

Меньший ${displaystyle alpha}$ То есть, тем меньшее количество стика будет оставлено для последующих значений (в среднем), что даст более концентрированные распределения.

Процесс взлома палки аналогичен конструкции, при которой последовательно отбираются образцы из маргинальные бета-распределения чтобы сгенерировать образец из Распределение Дирихле. Видеть ^[3] для доказательства.

Схема урны Pólya

Еще один способ визуализировать процесс Дирихле и процесс китайского ресторана - это модифицированный Схема урны Pólya иногда называют Блэквелл-Маккуин схема отбора проб. Представьте, что мы начинаем с урны, наполненной ${displaystyle alpha}$ черные шары. Далее поступаем следующим образом:

Каждый раз, когда нам нужно наблюдение, мы вынимаем шар из урны.
Если мяч черный, мы равномерно генерируем новый (не черный) цвет, помечаем новый шар этим цветом, бросаем новый шар в урну вместе с нарисованным шаром и возвращаем сгенерированный нами цвет.
В противном случае пометьте новый шар цветом нарисованного нами шара, бросьте новый шар в урну вместе с нарисованным шаром и верните цвет, который мы наблюдали.

Полученное распределение по цветам такое же, как и распределение по столам в китайском ресторане. Кроме того, когда мы рисуем черный шар, вместо генерации нового цвета мы выбираем случайное значение из базового распределения. ${displaystyle H}$ и используйте это значение для обозначения нового шара, результирующее распределение по меткам будет таким же, как распределение по значениям в процессе Дирихле.

Использовать в качестве предварительного распределения

Процесс Дирихле можно использовать в качестве априорного распределения для оценки вероятностного распределения, генерирующего данные. В этом разделе мы рассматриваем модель

{displaystyle {egin {выравнивается} P & sim {extrm {DP}} (Malpha) X_ {1}, cdots, X_ {n} | P & {overset {extrm {iid}} {sim}} P.end {выравнивается}} }

Распределение Дирихле удовлетворяет предшествующее сопряжение, задняя консистенция и Теорема Бернштейна – фон Мизеса. ^[4]

Заднее спряжение

В этой модели апостериорное распределение снова является процессом Дирихле. Это означает, что процесс Дирихле является сопряженный предшествующий для этой модели. В апостериорное распределение дан кем-то

{displaystyle {egin {align} P | X_ {1}, cdots, X_ {n} sim {extrm {DP}} (альфа H + сумма _ {i = 1} ^ {n} X_ {1}) конец {выровнено }}}

Задняя консистенция

Если мы возьмем частотник С точки зрения вероятности, мы считаем, что существует истинное распределение вероятностей ${displaystyle P_ {0}}$ которые сгенерировали данные. Тогда оказывается, что процесс Дирихле согласован в слабая топология, что означает, что для любой слабой окрестности ${displaystyle U}$ из ${displaystyle P_ {0}}$ , апостериорная вероятность ${displaystyle U}$ сходится к ${displaystyle 1}$ .

Теорема Бернштейна-фон Мизеса

Чтобы интерпретировать достоверные наборы как наборы достоверности, Теорема Бернштейна – фон Мизеса необходим. В случае процесса Дирихле мы сравниваем апостериорное распределение с эмпирический процесс ${displaystyle mathbb {P} _ {n} = {frac {1} {n}} sum _ {i = 1} ^ {n} delta _ {X_ {i}}}$ . Предполагать ${displaystyle {mathcal {F}}}$ это ${displaystyle P_ {0}}$ -Donsker класс, т.е.

{displaystyle {egin {align} {sqrt {(}} n) left (mathbb {P} _ {n} -P_ {0} ight) ightsquigarrow G_ {P_ {0}} end {align}}}

для какого-то броуновского моста ${displaystyle G_ {P_ {0}}}$ . Предположим также, что существует функция ${displaystyle F}$ такой, что ${displaystyle F (x) geq sup _ {fin {mathcal {F}}} f (x)}$ такой, что ${displaystyle int F ^ {2} mathrm {d} H$ , тогда, ${displaystyle P_ {0}}$ почти наверняка

{displaystyle {sqrt {n}} left (P-mathbb {P} _ {n} ight) | X_ {1}, cdots, X_ {n} ightsquigarrow G_ {P_ {0}}.}

Это означает, что построенные вами достоверные множества являются асимптотическими доверительными наборами, а байесовский вывод, основанный на процессе Дирихле, асимптотически также является действительным частотным выводом.

Использование в моделях смеси Дирихле

Моделирование 1000 наблюдений, взятых из модели смеси Дирихле. Каждое наблюдение в кластере проводится независимо от многомерное нормальное распределение

{displaystyle N (mu _ {k}, 1/4)}

. Кластер означает

{displaystyle mu _ {k}}

взяты из распределения G, которое само получено из процесса Дирихле с параметром концентрации

{displaystyle alpha = 0,5}

и базовое распространение

{displaystyle H = N (2,16)}

. Каждая строка - это новая симуляция.

Чтобы понять, что такое процессы Дирихле и какую задачу они решают, рассмотрим пример кластеризация данных. Это обычная ситуация, когда предполагается, что точки данных распределены иерархическим образом, где каждая точка данных принадлежит (случайно выбранному) кластеру, а члены кластера далее случайным образом распределяются внутри этого кластера.

Пример 1

Например, нас может интересовать, как люди будут голосовать по ряду вопросов на предстоящих выборах. Разумной моделью для этой ситуации может быть классификация каждого избирателя как либерала, консерватора или умеренного, а затем моделирование события, когда избиратель говорит «да» на любой конкретный вопрос, как Случайная величина Бернулли с вероятностью, зависящей от того, к какому политическому кластеру они принадлежат. Посмотрев на то, как в предыдущие годы подавались голоса по аналогичным законодательным актам, можно было бы подогнать модель прогнозирования с использованием простого алгоритма кластеризации, такого как k-означает. Однако этот алгоритм требует заранее знать количество кластеров, которые генерировали данные. Во многих ситуациях невозможно определить это заранее, и даже когда мы можем разумно предположить количество кластеров, мы все равно хотели бы иметь возможность проверить это предположение. Например, в приведенном выше примере голосования разделение на либералов, консерваторов и умеренных может быть недостаточно точным; Такие атрибуты, как религия, класс или раса, также могут иметь решающее значение для моделирования поведения избирателей, что приводит к увеличению количества кластеров в модели.

Пример 2

В качестве другого примера нас может заинтересовать моделирование скоростей галактик с помощью простой модели, предполагающей, что скорости группируются, например, предполагая, что каждая скорость распределена в соответствии с нормальное распределение ${displaystyle v_ {i} sim N (mu _ {k}, sigma ^ {2})}$ , где ${displaystyle i}$ -е наблюдение принадлежит ${displaystyle k}$ -е скопление галактик с общей ожидаемой скоростью. В этом случае далеко не очевидно, как определить априори, сколько кластеров (с общими скоростями) должно быть, и любая модель для этого была бы очень подозрительной и ее следует сверять с данными. Используя предварительный процесс Дирихле для распределения кластеров, мы избавляемся от необходимости заранее явно указывать количество кластеров, хотя параметр концентрации по-прежнему неявно управляет им.

Рассмотрим этот пример более подробно. Первая наивная модель - это предположить, что есть ${displaystyle K}$ кластеры нормально распределенных скоростей с общеизвестными фиксированными отклонение ${displaystyle sigma ^ {2}}$ . Обозначая событие, которое ${displaystyle i}$ -е наблюдение находится в ${displaystyle k}$ -й кластер как ${displaystyle z_ {i} = k}$ мы можем записать эту модель как:

{displaystyle {egin {align} (v_ {i} mid z_ {i} = k, mu _ {k}) & sim N (mu _ {k}, sigma ^ {2}) operatorname {P} (z_ {i } = k) & = pi _ {k} ({oldsymbol {pi}} mid alpha) & sim operatorname {Dir} left ({frac {alpha} {K}} cdot mathbf {1} _ {K} ight) mu _ {k} & sim H (лямбда) конец {выровнен}}}

То есть мы предполагаем, что данные принадлежат ${displaystyle K}$ отдельные кластеры со средствами ${displaystyle mu _ {k}}$ и это ${displaystyle pi _ {k}}$ - (неизвестная) априорная вероятность того, что точка данных принадлежит ${displaystyle k}$ -й кластер. Мы предполагаем, что у нас нет исходной информации, различающей кластеры, которая фиксируется симметричной априорной ${displaystyle operatorname {Dir} left (alpha / Kcdot mathbf {1} _ {K} ight)}$ . Здесь ${displaystyle operatorname {Dir}}$ обозначает Распределение Дирихле и ${displaystyle mathbf {1} _ {K}}$ обозначает вектор длины ${displaystyle K}$ где каждый элемент равен 1. Далее мы назначаем независимые и идентичные априорные распределения. ${displaystyle H (лямбда)}$ к каждому из кластеров означает, где ${displaystyle H}$ может быть любым параметрическим распределением с параметрами, обозначенными как ${displaystyle lambda}$ . Гиперпараметры ${displaystyle alpha}$ и ${displaystyle lambda}$ считаются известными фиксированными константами, выбранными для отражения наших прежних представлений о системе. Чтобы понять связь с априорными процессами Дирихле, мы переписываем эту модель в эквивалентной, но более информативной форме:

{displaystyle {egin {align} (v_ {i} mid {ilde {mu}} _ {i}) и sim N ({ilde {mu}} _ {i}, sigma ^ {2}) {ilde {mu} } _ {i} & sim G = sum _ {k = 1} ^ {K} pi _ {k} delta _ {mu _ {k}} ({ilde {mu}} _ {i}) ({oldsymbol { pi}} mid alpha) & sim operatorname {Dir} left ({frac {alpha} {K}} cdot mathbf {1} _ {K} ight) mu _ {k} & sim H (лямбда) конец {выровнено}}}

Вместо того, чтобы представлять себе, что каждой точке данных сначала назначается кластер, а затем извлекается из распределения, связанного с этим кластером, мы теперь думаем, что каждое наблюдение связано с параметром ${displaystyle {ilde {mu}} _ {i}}$ взяты из некоторого дискретного распределения ${displaystyle G}$ при поддержке ${displaystyle K}$ средства. То есть сейчас лечим ${displaystyle {ilde {mu}} _ {i}}$ как полученный из случайного распределения ${displaystyle G}$ и наша априорная информация включается в модель путем распределения по распределениям ${displaystyle G}$ .

Воспроизвести медиа

Анимация процесса кластеризации для одномерных данных с использованием гауссовских распределений, полученных из процесса Дирихле. Гистограммы кластеров показаны разными цветами. Во время процесса оценки параметров создаются и растут новые кластеры на данных. В легенде показаны цвета кластера и количество точек данных, назначенных каждому кластеру.

Теперь мы хотели бы расширить эту модель, чтобы она работала без предварительного указания фиксированного количества кластеров. ${displaystyle K}$ . Математически это означает, что мы хотели бы выбрать случайное априорное распределение. ${displaystyle G ({ilde {mu}} _ {i}) = sum _ {k = 1} ^ {infty} pi _ {k} delta _ {mu _ {k}} ({ilde {mu}} _ { я})}$ где значения кластеров означают ${displaystyle mu _ {k}}$ снова независимо распределяются согласно ${displaystyle Hleft (лямбда ight)}$ и распределение по ${displaystyle pi _ {k}}$ симметричен над бесконечным множеством кластеров. Именно этим и занимается модель:

{displaystyle {egin {align} (v_ {i} mid {ilde {mu}} _ {i}) и sim N ({ilde {mu}} _ {i}, sigma ^ {2}) {ilde {mu} } _ {i} & sim G G & sim operatorname {DP} (H (лямбда), альфа) конец {выровнено}}}

Имея это в руках, мы можем лучше понять вычислительные достоинства процесса Дирихле. Предположим, что мы хотели нарисовать ${displaystyle n}$ наблюдения наивной модели с точно ${displaystyle K}$ кластеры. Самый простой алгоритм для этого - нарисовать ${displaystyle K}$ ценности ${displaystyle mu _ {k}}$ из ${displaystyle H (лямбда)}$ , распределение ${displaystyle pi}$ из ${displaystyle operatorname {Dir} left (alpha / Kcdot mathbf {1} _ {K} ight)}$ а затем для каждого наблюдения независимо отобрать кластер ${displaystyle k}$ с вероятностью ${displaystyle pi _ {k}}$ и ценность наблюдения согласно ${displaystyle Nleft (mu _ {k}, sigma ^ {2} ight)}$ . Легко видеть, что этот алгоритм не работает в случае, когда мы разрешаем бесконечные кластеры, потому что это потребовало бы выборки бесконечномерного параметра ${displaystyle {oldsymbol {pi}}}$ . Тем не менее, все еще можно сделать выборку наблюдений. ${displaystyle v_ {i}}$ . Можно, например, используйте представление китайского ресторана, описанное ниже, и вычислите вероятность создания использованных кластеров и нового кластера. Это позволяет избежать явного указания ${displaystyle {oldsymbol {pi}}}$ . Другие решения основаны на усечении кластеров: вводится (высокая) верхняя граница для истинного количества кластеров, и числа кластеров, превышающие нижнюю границу, рассматриваются как один кластер.

Подбор модели, описанной выше, на основе данных наблюдений ${displaystyle D}$ означает найти апостериорное распределение ${displaystyle pleft ({oldsymbol {pi}}, {oldsymbol {mu}} mid Dight)}$ над вероятностями кластера и связанными с ними средними. В бесконечномерном случае явно невозможно выписать апостериорную функцию. Однако можно взять образцы из этого апостериорного отдела, используя модифицированный Сэмплер Гиббса.^[5] Это критический факт, который делает априорный процесс Дирихле полезным для вывод.

Приложения процесса Дирихле

Процессы Дирихле часто используются в Байесовский непараметрическая статистика. «Непараметрический» здесь не означает модель без параметров, а скорее модель, в которой представления растут по мере увеличения количества наблюдаемых данных. Байесовские непараметрические модели приобрели значительную популярность в области машинное обучение из-за вышеупомянутой гибкости, особенно в обучение без учителя. В байесовской непараметрической модели априорное и апостериорное распределения - это не параметрические распределения, а случайные процессы.^[6] Тот факт, что распределение Дирихле является вероятностным распределением на симплекс наборов неотрицательных чисел, сумма которых равна единице, делает его хорошим кандидатом для моделирования распределений по распределениям или распределений по функциям. Кроме того, непараметрическая природа этой модели делает ее идеальным кандидатом для задач кластеризации, когда точное количество кластеров заранее неизвестно. Кроме того, процесс Дирихле также использовался для разработки смеси экспертных моделей в контексте контролируемых алгоритмов обучения (настройки регрессии или классификации). Например, смеси экспертов по гауссовским процессам, где количество необходимых экспертов должно быть выведено из данных.^[7]^[8]

Поскольку выводы из процесса Дирихле дискретны, важно использовать его в качестве априорная вероятность в бесконечные модели смеси. В этом случае, ${displaystyle S}$ - параметрический набор компонентных распределений. Таким образом, процесс генерации состоит в том, что выборка берется из процесса Дирихле, а для каждой точки данных, в свою очередь, извлекается значение из этого распределения выборки и используется в качестве распределения компонентов для этой точки данных. Тот факт, что количество отдельных компонентов, которые могут быть сгенерированы, не ограничено, делает эту модель подходящей для случая, когда количество компонентов смеси не определено заранее. Например, бесконечная смесь гауссианской модели,^[9] а также связанные модели регрессии смеси, например^[10]

Бесконечная природа этих моделей также дает им возможность обработка естественного языка приложения, в которых часто желательно рассматривать словарь как бесконечный дискретный набор.

Процесс Дирихле также можно использовать для непараметрической проверки гипотез, то есть для разработки байесовских непараметрических версий классических непараметрических тестов гипотез, например знаковый тест, Критерий суммы рангов Вилкоксона, Знаковый ранговый тест Вилкоксона и т. д. Например, байесовские непараметрические версии критерия суммы рангов Вилкоксона и критерия знаковых рангов Вилкоксона были разработаны с использованием неточный процесс Дирихле Незнание процесса Дирихле.^{[нужна цитата ]}

Связанные дистрибутивы

В Процесс Питмана – Йорка является обобщением процесса Дирихле для учета степенных хвостов
В иерархический процесс Дирихле расширяет обычный процесс Дирихле для моделирования сгруппированных данных.

внешняя ссылка

[1] Фергюсон, Томас (1973). «Байесовский анализ некоторых непараметрических задач». Анналы статистики. 1 (2): 209–230. Дои:10.1214 / aos / 1176342360. МИСТЕР 0350949.

[2] ttp://topicmodels.west.uni-koblenz.de/ckling/tmt/crp.html?parameters=0.5&dp=1#

[3] Пейсли, Джон. Простое доказательство ломающей палки конструкции процесса Дирихле. Технический отчет, Принстонский университет, факультет компьютерных наук, 2010 г.

[4] Аад ван дер Ваарт, Субхашис Гхосал (2017). Основы байесовского непараметрического вывода. Издательство Кембриджского университета. ISBN 978-0-521-87826-5.

[5] Саддерт, Эрик (2006). Графические модели для визуального распознавания и отслеживания объектов (PDF) (Кандидат наук.). MIT Press.

[6] Нильс Лид Хьорт, Крис Холмс, Питер Мюллер и Стивен Г. Уокер (2010). Байесовские непараметрики. Издательство Кембриджского университета. ISBN 978-0-521-51346-3.CS1 maint: несколько имен: список авторов (связь)

[7] Сотириос П. Хатзис, «Гауссовская модель процесса со скрытой переменной и априорными процессами Питмана-Йорка для мультиклассовой классификации», Нейрокомпьютинг, т. 120, стр. 482-489, ноябрь 2013 г. [1]

[8] Сотириос П. Хатзис, Яннис Демирис, «Непараметрические смеси гауссовских процессов со степенным поведением», IEEE Transactions on Neural Networks and Learning Systems, vol. 23, нет. 12. С. 1862–1871, декабрь 2012 г. [2]

[9] Расмуссен, Карл (2000). "Модель бесконечной гауссовской смеси" (PDF). Достижения в системах обработки нейронной информации. 12: 554–560.

[10] Сотириос П. Хатзис, Димитриос Коркиноф и Яннис Демирис, «Непараметрический байесовский подход к обучению роботов путем демонстрации», Робототехника и автономные системы, вып. 60, нет. 6. С. 789–802, июнь 2012 г. [3]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Стохастические процессы
Дискретное время	Процесс Бернулли Ветвящийся процесс Китайский ресторанный процесс Процесс Гальтона – Ватсона Независимые и одинаково распределенные случайные величины Цепь Маркова Процесс Морана Случайная прогулка Со стертой петлей Избегать себя Пристрастный Максимальная энтропия
Непрерывное время	Аддитивный процесс Бесселевский процесс Процесс рождения – смерти чистое рождение Броуновское движение Мост Экскурсия Дробное Геометрический Меандр Процесс Коши Контактный процесс Случайное блуждание в непрерывном времени Процесс Кокса Процесс диффузии Эмпирический процесс Валочный процесс Процесс Флеминга – Виота Гамма-процесс Геометрический процесс Процесс охоты Системы взаимодействующих частиц Ито диффузия Процесс Ито Скачок диффузии Перейти процесс Леви процесс Местное время Марковский аддитивный процесс Процесс Маккина – Власова Процесс Орнштейна – Уленбека Пуассоновский процесс Сложный Неоднородный Эволюция Шрамма – Лёвнера Семимартингейл Сигма-мартингейл Стабильный процесс Суперпроцесс Телеграфный процесс Вариант гамма-процесса Винеровский процесс Венская колбаса
Обе	Ветвящийся процесс Модель Гальвеса – Лёхербаха Гауссовский процесс Скрытая марковская модель (HMM) Марковский процесс Мартингейл Отличия Местный Суб- Супер- Случайная динамическая система Регенеративный процесс Процесс продления Стохастические цепочки с памятью переменной длины белый шум
Поля и прочее	Процесс Дирихле Гауссовское случайное поле Мера Гиббса Модель Хопфилда Модель Изинга Модель Поттса Логическая сеть Марковское случайное поле Перколяция Процесс Питмана – Йорка Точечный процесс Кокс Пуассон Случайное поле Случайный график
Модели временных рядов	Модель авторегрессионной условной гетероскедастичности (ARCH) Модель авторегрессионного интегрированного скользящего среднего (ARIMA) Модель авторегрессии (AR) Модель авторегрессии – скользящего среднего (ARMA) Модель обобщенной авторегрессионной условной гетероскедастичности (GARCH) Модель скользящего среднего (MA)
Финансовые модели	Блэк – Дерман – Той Черный – Карасинский Блэк – Скоулз Чен Постоянная эластичность дисперсии (CEV) Кокс – Ингерсолл – Росс (CIR) Гарман – Кольхаген Хит – Джарроу – Мортон (HJM) Heston Хо – Ли Корпус – Белый Рынок LIBOR Рендлман – Барттер Волатильность SABR Вашичек Уилки
Актуарные модели	Бюльманн Крамер-Лундберг Рисковый процесс Спарре – Андерсон
Модели очередей	Масса Жидкость Обобщенная сеть массового обслуживания M / G / 1 M / M / 1 М / м / ц
Характеристики	Càdlàg тропы Непрерывный Непрерывные пути Эргодический Заменяемый Валочно-непрерывный Гаусс – Марков Марков Смешивание Кусочно-детерминированный Предсказуемый Постепенно измеримый Самоподобный Стационарный Обратимый во времени
Предельные теоремы	Центральная предельная теорема Теорема Донскера Теоремы Дуба о сходимости мартингалов Эргодическая теорема Теорема Фишера – Типпета – Гнеденко. Принцип большого отклонения Закон больших чисел (слабый / сильный) Закон повторного логарифма Максимальная эргодическая теорема Теорема Санова
Неравенства	Буркхолдер – Дэвис – Ганди Мартингейл Дуба Кунита – Ватанабэ
Инструменты	Формула Камерона – Мартина Сходимость случайных величин Показательная величина Далеана-Даде Теорема Дуба о разложении Теорема Дуба – Мейера о разложении Теорема Дуба об необязательной остановке Формула Дынкина Формула Фейнмана – Каца Фильтрация Теорема Гирсанова Генератор бесконечно малых Ито интегральный Лемма Ито Карунен – Loève_theorem Колмогорова теорема непрерывности Колмогорова теорема о продолжении Метрика Леви – Прохорова Исчисление Маллявэна Теорема о мартингальном представлении Теорема о необязательной остановке Теорема Прохорова Квадратичная вариация Принцип отражения Скороход интеграл Теорема Скорохода о представлении Скороход космос Конверт Снелла Стохастическое дифференциальное уравнение Танака Время остановки Интеграл Стратоновича Равномерная интегрируемость Обычные гипотезы Винеровское пространство Классический Абстрактный
Дисциплины	Актуарная математика Теория управления Эконометрика Эргодическая теория Теория экстремальных ценностей (EVT) Теория больших отклонений Математические финансы Математическая статистика Теория вероятности Теория массового обслуживания Теория обновления Теория разорения Обработка сигналов Статистика Система на чипе дизайн Стохастический анализ Анализ временных рядов Машинное обучение
Список тем Категория