Кумулятивная функция распределения - Cumulative distribution function

Кумулятивная функция распределения для экспоненциальное распределение
Кумулятивная функция распределения для нормальное распределение

В теория вероятности и статистика, то кумулятивная функция распределения (CDF) действительного случайная переменная , или просто функция распределения из , оценивается в , это вероятность который примет значение меньше или равное .[1]

В случае скаляра непрерывное распространение, дает площадь под функция плотности вероятности от минус бесконечности до . Кумулятивные функции распределения также используются для определения распределения многомерные случайные величины.

Определение

Кумулятивная функция распределения вещественных случайная переменная функция, заданная[2]:п. 77

 

 

 

 

(Уравнение 1)

где правая часть представляет собой вероятность что случайная величина принимает значение меньше или равно . Вероятность того, что лежит в полузакрытом интервал , куда , следовательно является[2]:п. 84

 

 

 

 

(Уравнение 2)

В приведенном выше определении знак «меньше или равно», «≤», является условным обозначением, а не универсальным (например, в венгерской литературе используется «<»), но различие важно для дискретных распределений. Правильное использование таблиц биномиальный и Распределения Пуассона зависит от этого соглашения. Кроме того, такие важные формулы, как Поль Леви формула обращения для характеристическая функция также полагайтесь на формулировку «меньше или равно».

Если рассматривать несколько случайных величин и т.д. соответствующие буквы используются как нижние индексы, в то время как, если рассматривается только один, нижний индекс обычно опускается. Принято использовать заглавную букву для кумулятивной функции распределения, в отличие от нижнего регистра используется для функции плотности вероятности и вероятностные массовые функции. Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные условные обозначения, например нормальное распределение.

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования[3] с использованием Основная теорема исчисления; т.е. данный ,

пока существует производная.

CDF непрерывная случайная величина можно выразить как интеграл от его функции плотности вероятности следующее:[2]:п. 86

В случае случайной величины которое имеет распределение с дискретной составляющей при значении ,

Если непрерывно на , это равно нулю, и дискретная составляющая на .

Характеристики

Сверху вниз - кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, которое имеет как непрерывную, так и дискретную части.

Каждая кумулятивная функция распределения является неубывающий[2]:п. 78 и непрерывный вправо,[2]:п. 79 что делает его càdlàg функция. Более того,

Каждая функция с этими четырьмя свойствами является CDF, т.е. для каждой такой функции случайная переменная может быть определена так, что функция является кумулятивной функцией распределения этой случайной величины.

Если это чисто дискретная случайная величина, то достигает значений с вероятностью , и CDF будет прерывистый в точках :

Если CDF действительной случайной величины является непрерывный, тогда это непрерывная случайная величина; если к тому же является абсолютно непрерывный, то существует Интегрируемый по Лебегу функция такой, что

для всех действительных чисел и . Функция равно производная из почти всюду, и это называется функция плотности вероятности распределения .

Примеры

В качестве примера предположим является равномерно распределены на единичном интервале .

Тогда CDF дан кем-то

Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью.

Тогда CDF дан кем-то

Предполагать является экспоненциально распределенный. Тогда CDF дан кем-то

Здесь λ> 0 - параметр распределения, часто называемый параметром скорости.

Предполагать является нормально распределенный. Тогда CDF дан кем-то

Здесь параметр среднее или математическое ожидание распределения; и его стандартное отклонение.

Предполагать является биномиально распределенный. Тогда CDF дан кем-то

Здесь - вероятность успеха, а функция обозначает дискретное распределение вероятностей количества успехов в последовательности независимые эксперименты и это "пол" под , т.е. наибольшее целое число меньше или равно .

Производные функции

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина над конкретный уровень. Это называется дополнительная кумулятивная функция распределения (ccdf) или просто распределение хвоста или же превышение, и определяется как

Это имеет приложения в статистический проверка гипотезы, например, потому что односторонний p-значение вероятность наблюдения тестовой статистики по меньшей мере столь же экстремально, как и наблюдаемый. Таким образом, при условии, что статистика теста, Т, имеет непрерывное распределение, одностороннее p-значение просто дается ccdf: для наблюдаемого значения статистики теста

В анализ выживаемости, называется функция выживания и обозначен , а срок функция надежности распространено в инженерное дело.

Z-таблица:

Одним из самых популярных приложений кумулятивной функции распределения является стандартный нормальный стол, также называемый единица нормального стола или же Z таблица,[4] - значение кумулятивной функции распределения нормального распределения. Очень полезно использовать Z-таблицу не только для вероятностей ниже значения, которое является исходным приложением кумулятивной функции распределения, но также выше и / или между значениями стандартного нормального распределения, и в дальнейшем она была расширена до любого нормального распределения.

Характеристики
  • Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, Неравенство Маркова утверждает, что[5]
  • В качестве , а на самом деле при условии, что конечно.
Доказательство:[нужна цитата ] Предполагая имеет функцию плотности , для любого
Затем, узнав и перестановка условий,
как заявлено.

Свернутое совокупное распределение

Пример сложенного кумулятивного распределения для нормальное распределение функция с ожидаемое значение 0 и стандартное отклонение из 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является сложенное кумулятивное распределение или же горный участок, который складывает верхнюю половину графика,[6][7]Таким образом, используются две шкалы: одна для подъема, а другая - для спуска. Эта форма иллюстрации подчеркивает медиана и разброс (в частности, среднее абсолютное отклонение от медианы[8]) распределения или эмпирических результатов.

Функция обратного распределения (функция квантиля)

Если CDF F строго возрастает и непрерывно, то это уникальное действительное число такой, что . В таком случае это определяет обратная функция распределения или же квантильная функция.

Некоторые дистрибутивы не имеют уникального обратного (например, в случае, когда для всех , вызывая быть постоянным). Эту проблему можно решить, определив для , то обобщенная обратная функция распределения:

  • Пример 1: медиана .
  • Пример 2: положить . Затем мы звоним 95-й процентиль.

Некоторые полезные свойства обратного cdf (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. не убывает
  2. если и только если
  3. Если имеет распространение тогда распространяется как . Это используется в генерация случайных чисел с использованием выборка с обратным преобразованием -метод.
  4. Если представляет собой собрание независимых -распределенные случайные величины, определенные в одном и том же пространстве выборки, тогда существуют случайные величины такой, что распространяется как и с вероятностью 1 для всех .

Обратное к cdf можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения

В эмпирическая функция распределения является оценкой кумулятивной функции распределения, которая сгенерировала точки в выборке. Он сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к основной кумулятивной функции распределения.[нужна цитата ].

Многомерный случай

Определение двух случайных величин

При одновременной работе с более чем одной случайной величиной совместная кумулятивная функция распределения также можно определить. Например, для пары случайных величин , совместный CDF дан кем-то[2]:п. 89

 

 

 

 

(Уравнение 3)

где правая часть представляет собой вероятность что случайная величина принимает значение меньше или равно и который принимает значение меньше или равно .

Пример совместной кумулятивной функции распределения:

Для двух непрерывных переменных Икс и Y: ;

Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить кумулятивную вероятность для каждого потенциального диапазона Икс и Y, а вот пример:[9]

учитывая совместную функцию плотности вероятности в табличной форме, определите совместную кумулятивную функцию распределения.

Y = 2Y = 4Y = 6Y = 8
Икс = 100.100.1
Икс = 3000.20
Икс = 50.3000.15
Икс = 7000.150

Решение: используя данную таблицу вероятностей для каждого потенциального диапазона Икс и Y, совместная кумулятивная функция распределения может быть построена в табличной форме:

Y < 22 ≤ Y < 44 ≤ Y < 66 ≤ Y < 8Y ≤ 8
Икс < 100000
1 ≤ Икс < 3000.10.10.2
3 ≤ Икс < 5000.10.30.4
5 ≤ Икс < 700.30.40.60.85
Икс ≤ 700.30.40.751


Определение более двух случайных величин

За случайные переменные , совместный CDF дан кем-то

 

 

 

 

(Уравнение 4)

Толкование случайные величины как случайный вектор дает более короткое обозначение:

Характеристики

Каждый многомерный CDF:

  1. Монотонно неубывающая по каждой из своих переменных,
  2. Непрерывна справа по каждой из своих переменных,

Вероятность того, что точка принадлежит гипер прямоугольник аналогичен одномерному случаю:[10]

Сложный случай

Сложная случайная величина

Обобщение кумулятивной функции распределения от действительной к сложные случайные величины неочевидно, потому что выражения вида не имеет смысла. Однако выражения формы имеет смысл. Поэтому мы определяем кумулятивное распределение сложных случайных величин через совместное распределение их реальной и мнимой частей:

.

Комплексный случайный вектор

Обобщение Уравнение 4 дает

как определение CDS комплексного случайного вектора .

Использование в статистическом анализе

Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (аналогичными) способами. Накопительный частотный анализ это анализ частоты появления значений явления меньше контрольного значения. В эмпирическая функция распределения является формальной прямой оценкой кумулятивной функции распределения, для которой могут быть получены простые статистические свойства и которая может лечь в основу различных статистические проверки гипотез. Такие тесты могут оценить, есть ли свидетельства против выборки данных, полученных из данного распределения, или свидетельства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.

Тесты Колмогорова – Смирнова и Койпера

В Тест Колмогорова – Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или эмпирическое распределение отличается от идеального. Тесно связанные Тест Койпера полезно, если область распределения циклична, например, по дням недели. Например, можно использовать тест Койпера, чтобы увидеть, меняется ли количество торнадо в течение года или продажи продукта меняются по дню недели или дню месяца.

Смотрите также

Рекомендации

  1. ^ Дайзенрот, Марк Питер; Фейсал, А. Альдо; Онг, Ченг Сун (2020). Математика для машинного обучения. Издательство Кембриджского университета. п. 181. ISBN  9781108455145.
  2. ^ а б c d е ж Парк, Кун Иль (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям. Springer. ISBN  978-3-319-68074-3.
  3. ^ Montgomery, Douglas C .; Рангер, Джордж К. (2003). Прикладная статистика и вероятность для инженеров (PDF). John Wiley & Sons, Inc. стр. 104. ISBN  0-471-20454-4.
  4. ^ "Z Таблица". Z Таблица. Получено 2019-12-11.
  5. ^ Цвиллинджер, Даниэль; Кокоска, Стивен (2010). Стандартные таблицы вероятностей и статистики CRC и формулы. CRC Press. п. 49. ISBN  978-1-58488-059-2.
  6. ^ Джентл, Дж. Э. (2009). Вычислительная статистика. Springer. ISBN  978-0-387-98145-1. Получено 2010-08-06.[страница нужна ]
  7. ^ Монти, К. Л. (1995). «Сложенные кривые эмпирической функции распределения (горные графики)». Американский статистик. 49 (4): 342–345. Дои:10.2307/2684570. JSTOR  2684570.
  8. ^ Xue, J. H .; Титерингтон, Д. М. (2011). «P-свернутая кумулятивная функция распределения и среднее абсолютное отклонение от p-квантиля» (PDF). Письма о статистике и вероятности. 81 (8): 1179–1182. Дои:10.1016 / j.spl.2011.03.014.
  9. ^ «Совместная кумулятивная функция распределения (CDF)». math.info. Получено 2019-12-11.
  10. ^ [1]

внешняя ссылка