Подгонка распределения вероятностей - Probability distribution fitting

Подгонка распределения вероятностей или просто распределительная арматура это примерка распределение вероятностей к серии данных, касающихся повторного измерения переменного явления.

Целью распределения является предсказывать то вероятность или чтобы прогноз то частота наступления величины явления в определенном интервале.

Существует множество распределений вероятностей (см. список распределений вероятностей ), некоторые из которых могут более точно соответствовать наблюдаемой частоте данных, чем другие, в зависимости от характеристик явления и распределения. Предполагается, что близкое распределение дает хорошие прогнозы.

Следовательно, при подгонке распределения необходимо выбрать распределение, которое хорошо подходит для данных.

Выбор дистрибутива

Различные формы симметричного нормального распределения в зависимости от среднего μ и дисперсия σ 2

Выбор подходящего распределения зависит от наличия или отсутствия симметрии набора данных относительно среднее значение.

Симметричные распределения

Когда данные симметрично распределены вокруг среднего значения, а частота появления данных, находящихся дальше от среднего, уменьшается, можно, например, выбрать нормальное распределение, то логистическая дистрибуция, или Распределение Стьюдента. Первые два очень похожи, в то время как последний, с одной степенью свободы, имеет «более тяжелые хвосты», что означает, что значения, более удаленные от среднего, встречаются относительно чаще (т. Е. эксцесс выше). В Распределение Коши также симметричен.

Перекос распределения вправо

Асимметрия влево и вправо

Когда большие значения имеют тенденцию быть дальше от среднего, чем меньшие значения, одно имеет распределение вправо (т. Е. Положительное перекос ), можно, например, выбрать логнормальное распределение (т.е. значения журнала данных нормально распределенный ), логистическая дистрибуция (т.е. значения журнала данных следуют логистическая дистрибуция ), Гамбель раздача, то экспоненциальное распределение, то Распределение Парето, то Распределение Вейбулла, то Распределение заусенцев, или Распределение фреше. Последние четыре распределения ограничены слева.

Сдвиг распределений влево

Когда меньшие значения имеют тенденцию быть дальше от среднего, чем большие значения, имеется неравномерное распределение влево (т.е. есть отрицательная асимметрия), можно, например, выбрать квадратно-нормальное распределение (т.е. нормальное распределение применяется к квадрату значений данных),[1] инвертированное (зеркальное) распределение Гамбеля,[1] то Распределение Dagum (зеркальное распределение заусенцев) или Распределение Гомперца, ограниченный слева.

Техники примерки

Существуют следующие методы подгонки распределения:[2]

Например, параметр ожидание ) можно оценить иметь в виду данных и параметра отклонение ) можно оценить из стандартное отклонение данных. Среднее значение находится как , куда это значение данных и количество данных, а стандартное отклонение рассчитывается как . С этими параметрами многие распределения, например нормальное распределение, полностью определены.
Кумулятивное распределение по шкале Гумбеля, соответствующее максимальному количеству однодневных осадков в октябре в Суринам методом регрессии с добавлением группа уверенности с помощью cumfreq
Например, совокупный Гамбель раздача можно линеаризовать до , куда переменная данных и , с - кумулятивная вероятность, т.е. вероятность того, что значение данных меньше, чем . Таким образом, используя положение на графике за , находятся параметры и из линейной регрессии на , и распределение Гамбеля полностью определено.

Обобщение распределений

Принято преобразовывать данные логарифмически, чтобы они соответствовали симметричным распределениям (например, нормальный и логистика ) к данным, подчиняющимся распределению, которое имеет положительный перекос (т.е. наклон вправо, с иметь в виду > Режим, и с правым хвостом, который длиннее левого), см. логнормальное распределение и логистическая дистрибуция. Аналогичного эффекта можно добиться, извлекая квадратный корень из данных.

Чтобы согласовать симметричное распределение с данными, подчиняющимися распределению с отрицательным перекосом (т. Е. С перекосом влево, с иметь в виду < Режим, и с правым хвостом он короче, чем левый хвост), можно использовать квадраты значений данных для выполнения подгонки.

В более общем смысле можно поднять данные до степени п чтобы согласовать симметричные распределения с данными, подчиняющимися распределению любой асимметрии, посредством чего п <1, когда асимметрия положительная и п > 1 при отрицательной асимметрии. Оптимальное значение п должен быть найден численный метод. Численный метод может состоять в предположении диапазона п значений, затем многократно применяя процедуру аппроксимации распределения для всех предполагаемых п значения, и, наконец, выбор значения п для которого сумма квадратов отклонений расчетных вероятностей от измеренных частот (чи в квадрате ) минимально, как это сделано в CumFreq.

Обобщение увеличивает гибкость распределений вероятностей и увеличивает их применимость при подборе распределения.

Инверсия асимметрии

(A) Распределение вероятностей Гамбеля смещено вправо и (B) Гамбель отражено смещением влево

Перекошенные распределения можно инвертировать (или отразить), заменив в математическом выражении кумулятивная функция распределения (F) его дополнением: F '= 1-F, получая дополнительная функция распределения (также называемый функция выживания ), что дает зеркальное отображение. Таким образом, распределение, которое смещено вправо, преобразуется в распределение, которое смещено влево, и наоборот.

Пример. F-выражение положительно искаженного Гамбель раздача это: F = exp [-exp {- (Икс-ты)/0.78s}], куда ты это Режим (т. е. наиболее часто встречающееся значение) и s это стандартное отклонение. Распределение Гамбеля можно преобразовать с помощью F '= 1-exp [-exp {- (Икс-ты)/0.78s}]. Это преобразование дает обратное, зеркальное или дополнительное распределение Гамбеля, которое может соответствовать ряду данных, подчиняющемуся отрицательно искаженному распределению.

Техника инверсии асимметрии увеличивает количество распределений вероятностей, доступных для подгонки распределения, и расширяет возможности подбора распределения.

Сдвиг распределений

Некоторые распределения вероятностей, такие как экспоненциальный, не поддерживают значения данных (Икс) равный или меньше нуля. Тем не менее, когда присутствуют отрицательные данные, такие распределения все же можно использовать вместо Икс к Y=Икс-Xm, куда Xm минимальное значение Икс. Эта замена представляет собой сдвиг распределения вероятностей в положительном направлении, т.е. вправо, поскольку Xm отрицательный. После завершения раздачи примерки Yсоответствующие Икс-значения находятся из Икс=Y+Xm, что представляет собой обратный сдвиг распределения в отрицательном направлении, то есть влево.
Техника смещения распределения увеличивает шанс найти правильно подходящее распределение вероятностей.

Составные распределения

Составное (прерывистое) распределение с поясом уверенности[6]

Существует возможность использовать два разных распределения вероятностей, одно для нижнего диапазона данных, а другое для более высокого, например, Распределение Лапласа. Диапазоны разделены точкой останова. Использование таких составных (прерывистых) распределений вероятностей может быть целесообразным, когда данные изучаемого явления были получены при двух наборах различных условий.[7]

Неопределенность прогноза

Анализ неопределенности с поясами уверенности с использованием биномиального распределения [8]

Прогнозы возникновения событий на основе подобранного распределения вероятностей подлежат неуверенность, который возникает из следующих условий:

  • Истинное распределение вероятностей событий может отклоняться от подобранного распределения, поскольку ряд наблюдаемых данных может не полностью отражать реальную вероятность возникновения явления из-за случайная ошибка
  • Возникновение событий в другой ситуации или в будущем может отклоняться от подобранного распределения, поскольку это событие также может быть предметом случайной ошибки.
  • Изменение условий окружающей среды может вызвать изменение вероятности возникновения явления.
Вариации девяти период возврата кривые 50-летних образцов из теоретической 1000-летней записи (базовая линия), данные Benson[9]

Оценка неопределенности в первом и втором случае может быть получена с помощью биномиальное распределение вероятностей используя, например, вероятность превышения Пе (т.е. шанс, что событие Икс больше эталонного значения Xr из Икс) и вероятность непревышения Pn (т.е. шанс, что событие Икс меньше или равно эталонному значению Xr, это также называется кумулятивная вероятность ). В этом случае есть только две возможности: либо превышение, либо непревышение. Эта двойственность является причиной применимости биномиального распределения.

Используя биномиальное распределение, можно получить интервал прогноза. Такой интервал также оценивает риск отказа, то есть вероятность того, что прогнозируемое событие все еще останется за пределами доверительного интервала. Анализ уверенности или риска может включать период возврата Т = 1 / Ре как это сделано в гидрология.

Список распределений вероятностей, ранжированных по степени согласия.[10]
Гистограмма и плотность вероятности набора данных, соответствующих Распределение GEV

Доброту соответствия

Путем ранжирования степень соответствия Из различных дистрибутивов можно составить представление о том, какой дистрибутив приемлем, а какой нет.

Гистограмма и функция плотности

От кумулятивная функция распределения (CDF) можно вывести гистограмма и функция плотности вероятности (PDF).

Смотрите также

Рекомендации

  1. ^ а б Гистограммы с левым (отрицательным) перекосом частот могут быть подогнаны к квадратным нормальным или зеркальным функциям вероятности Гамбеля. В сети: [1]
  2. ^ Частотный и регрессионный анализ. Глава 6 в: Х.П. Ритзема (изд., 1994), Принципы и применение дренажа, Publ. 16, стр. 175–224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  9070754339. Бесплатная загрузка с веб-страницы [2] под № 12 или прямо в формате PDF: [3]
  3. ^ Х. Крамер, "Математические методы статистики", Princeton Univ. Пресса (1946)
  4. ^ Хоскинг, Дж. (1990). «L-моменты: анализ и оценка распределений с использованием линейных комбинаций порядковых статистик». Журнал Королевского статистического общества, серия B. 52: 105–124. JSTOR  2345653.
  5. ^ Олдрич, Джон (1997). "Р. А. Фишер и создание максимального правдоподобия 1912–1922 гг.". Статистическая наука. 12 (3): 162–176. Дои:10.1214 / сс / 1030037906. МИСТЕР  1617519.
  6. ^ Введение в составные распределения вероятностей
  7. ^ Программное обеспечение для обобщенных и составных распределений вероятностей. В: Международный журнал математических и вычислительных методов, январь 2019 г. В сети: [4]
  8. ^ Прогнозы частоты и их биномиальные доверительные интервалы. В: Международная комиссия по ирригации и дренажу, Специальная техническая сессия: экономические аспекты борьбы с наводнениями и неструктурные меры, Дубровник, Югославия, 1988. В сети
  9. ^ Бенсон, М.А. 1960. Характеристики частотных кривых на основе теоретических данных за 1000 лет. В: Т.Далримпл (ред.), Анализ частоты наводнений. Документ по водоснабжению Геологической службы США, 1543-A, стр. 51-71.
  10. ^ Программное обеспечение для аппроксимации распределения вероятностей