Эмпирическая функция распределения - Empirical distribution function

Зеленая кривая, которая асимптотически приближается к высотам 0 и 1, не достигая их, является истинной кумулятивной функцией распределения стандартного нормального распределения. Серые решетки представляют наблюдения в конкретной выборке, взятой из этого распределения, а горизонтальные шаги синей ступенчатой ​​функции (включая крайнюю левую точку на каждом этапе, но не включая крайнюю правую точку) образуют эмпирическую функцию распределения этой выборки. (Щелкните здесь, чтобы загрузить новый график.)
Зеленая кривая, которая асимптотически приближается к высотам 0 и 1, не достигая их, является истинной кумулятивной функцией распределения стандартное нормальное распределение. Серые решетки представляют наблюдения в конкретном образец взятые из этого распределения, и горизонтальные шаги синей ступенчатой ​​функции (включая крайнюю левую точку на каждом этапе, но не включая крайнюю правую точку) образуют эмпирическую функцию распределения этой выборки. (Щелкните здесь, чтобы загрузить новый график.)

В статистика, эмпирическая функция распределения - функция распределения, связанная с эмпирическая мера из образец. Этот кумулятивная функция распределения это ступенчатая функция что подпрыгивает 1/п на каждом из п точки данных. Его значение при любом заданном значении измеряемой переменной представляет собой долю наблюдений измеряемой переменной, которые меньше или равны заданному значению.

Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая создала точки в выборке. Он сходится с вероятностью 1 к этому базовому распределению в соответствии с Теорема Гливенко – Кантелли.. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.

Определение

Позволять (Икс1, …, Иксп) быть независимые, одинаково распределенные реальные случайные величины с общими кумулятивная функция распределения F(т). Тогда эмпирическая функция распределения определяется как[1][2]

куда это индикатор из мероприятие А. За фиксированный т, индикатор это Случайная величина Бернулли с параметром п = F(т); следовательно это биномиальная случайная величина с иметь в виду нФ(т) и отклонение нФ(т)(1 − F(т)). Отсюда следует, что является беспристрастный оценщик для F(т).

Однако в некоторых учебниках это определение приводится как[3][4]

Иметь в виду

В иметь в виду эмпирического распределения является объективный оценщик среднего распределения населения.

что чаще обозначается

Дисперсия

В отклонение эмпирических времен распределения представляет собой объективную оценку дисперсии распределения населения.

Среднеквадратичная ошибка

В среднеквадратичная ошибка для эмпирического распределения выглядит следующим образом.

Где это оценщик и неизвестный параметр

Квантили

Для любого реального числа обозначение (читать «потолок а») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a обозначение (читать «пол из а») означает наибольшее целое число, меньшее или равное .

Если не является целым числом, то -й квантиль уникален и равен

Если является целым числом, то -й квантиль не уникален и представляет собой любое действительное число такой, что

Эмпирическая медиана

Если нечетно, то эмпирическая медиана - это число

Если четно, то эмпирическая медиана - это число

Асимптотические свойства

Поскольку соотношение (п + 1)/п приближается к 1 как п стремится к бесконечности, асимптотические свойства двух приведенных выше определений совпадают.

Посредством сильный закон больших чисел, оценщик сходится к F(т) в качестве п → ∞ почти наверняка, для каждого значения т:[1]

таким образом, оценщик является последовательный. Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Есть более сильный результат, называемый Теорема Гливенко – Кантелли., который утверждает, что сходимость фактически происходит равномерно по т:[5]

Sup-норма в этом выражении называется Статистика Колмогорова – Смирнова для проверки согласия между эмпирическим распределением и предполагаемая истинная кумулятивная функция распределения F. Другой нормальные функции здесь можно разумно использовать вместо sup-norm. Например, L2-норма дает начало Статистика Крамера – фон Мизеса.

Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во-первых, Центральная предельная теорема утверждает, что точечно, имеет асимптотически нормальное распределение со стандартным скорость сходимости:[1]

Этот результат дополняется Теорема Донскера, который утверждает, что эмпирический процесс , рассматриваемая как функция, индексированная , сходится в распределении в Скороход космос до среднего нуля Гауссовский процесс , куда B это стандарт Броуновский мост.[5] Ковариационная структура этого гауссовского процесса имеет вид

Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как Венгерское вложение:[6]

В качестве альтернативы, скорость сходимости также может быть определено количественно в терминах асимптотического поведения sup-нормы этого выражения. В этом месте есть ряд результатов, например Неравенство Дворецкого – Кифера – Вулфовица. дает оценку хвостовых вероятностей :[6]

Фактически Колмогоров показал, что если кумулятивная функция распределения F непрерывно, то выражение сходится по распределению к , который имеет Колмогоровское распределение это не зависит от формы F.

Другой результат, который следует из закон повторного логарифма, в том, что [6]

и

Доверительные интервалы

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки нормального распределения

Согласно Неравенство Дворецкого – Кифера – Вулфовица. интервал, содержащий истинный CDF, , с вероятностью указывается как

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки распределения Коши

В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис из Statsmodel для построения эмпирического распределения.

Эмпирические графики CDF, CDF и доверительного интервала для различных размеров выборки треугольного распределения
"""Эмпирические функции CDF"""импорт тупой в качестве нпиз scipy.interpolate импорт interp1ddef _conf_set(F, альфа=0.05):    nobs = len(F)    эпсилон = нп.sqrt(нп.бревно(2.0 / альфа) / (2 * nobs))    ниже = нп.зажим(F - эпсилон, 0, 1)    верхний = нп.зажим(F + эпсилон, 0, 1)    возвращаться ниже, верхнийучебный класс StepFunction:    def __в этом__(себя, Икс, у, ival=0.0, отсортированный=Ложь, сторона="оставили"):        если сторона.ниже() нет в ["верно", "оставили"]:            сообщение = "сторона может принимать значения" вправо "или" влево ""            поднимать ValueError(сообщение)        себя.сторона = сторона        _Икс = нп.asarray(Икс)        _y = нп.asarray(у)        если _Икс.форма != _y.форма:            сообщение = «x и y не имеют одинаковой формы»            поднимать ValueError(сообщение)        если len(_Икс.форма) != 1:            сообщение = "x и y должны быть одномерными"            поднимать ValueError(сообщение)        себя.Икс = нп.р_[-нп.инф, _Икс]        себя.у = нп.р_[ival, _y]        если нет отсортированный:            asort = нп.argsort(себя.Икс)            себя.Икс = нп.брать(себя.Икс, asort, 0)            себя.у = нп.брать(себя.у, asort, 0)        себя.п = себя.Икс.форма[0]    def __вызов__(себя, время):        звон = нп.отсортированный(себя.Икс, время, себя.сторона) - 1        возвращаться себя.у[звон]учебный класс ECDF(StepFunction):    def __в этом__(себя, Икс, сторона="верно"):        Икс = нп.множество(Икс, копировать=Истинный)        Икс.Сортировать()        nobs = len(Икс)        у = нп.внутреннее пространство(1.0 / nobs, 1, nobs)        супер(ECDF, себя).__в этом__(Икс, у, сторона=сторона, отсортированный=Истинный)def monotone_fn_inverter(fn, Икс, векторизованный=Истинный, **ключевые слова):    Икс = нп.asarray(Икс)    если векторизованный:        у = fn(Икс, **ключевые слова)    еще:        у = []        за _Икс в Икс:            у.добавить(fn(_Икс, **ключевые слова))        у = нп.множество(у)    а = нп.argsort(у)    возвращаться interp1d(у[а], Икс[а])если __имя__ == "__главный__":    # TODO: Убедитесь, что все правильно выровнено, и сделайте черчение    # функция    из urllib.request импорт urlopen    импорт matplotlib.pyplot в качестве plt    nerve_data = urlopen("http://www.statsci.org/data/general/nerve.txt")    nerve_data = нп.loadtxt(nerve_data)    Икс = nerve_data / 50.0  # Было через 1/50 секунды    cdf = ECDF(Икс)    Икс.Сортировать()    F = cdf(Икс)    plt.шаг(Икс, F, куда="почтовый")    ниже, верхний = _conf_set(F)    plt.шаг(Икс, ниже, "р", куда="почтовый")    plt.шаг(Икс, верхний, "р", куда="почтовый")    plt.xlim(0, 1.5)    plt.Илим(0, 1.05)    plt.vlines(Икс, 0, 0.05)    plt.Показать()

Статистическая реализация

Неполный список программных реализаций функции эмпирического распределения включает:

  • В Программное обеспечение R, мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
  • В Математические работы мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
  • jmp от SAS, график CDF создает график эмпирической кумулятивной функции распределения.
  • Minitab, создайте эмпирическую CDF
  • Mathwave, мы можем подогнать распределение вероятностей к нашим данным
  • Dataplot, мы можем построить эмпирический график CDF
  • Scipy, используя scipy.stats, мы можем построить распределение
  • Статистические модели, мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
  • Матплотлиб, мы можем использовать гистограммы для построения кумулятивного распределения
  • Excel, мы можем построить эмпирический график CDF

Смотрите также

Рекомендации

  1. ^ а б c ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.265. ISBN  0-521-78450-6.
  2. ^ PlanetMath В архиве 9 мая 2013 г. Wayback Machine
  3. ^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений. Спрингер, стр. 36, определение 2.4. ISBN  978-1-4471-3675-0.
  4. ^ Мадсен, Х.О., Кренк, С., Линд, С.С. (2006) Методы конструктивной безопасности. Dover Publications. п. 148-149. ISBN  0486445976
  5. ^ а б ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.266. ISBN  0-521-78450-6.
  6. ^ а б c ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.268. ISBN  0-521-78450-6.

дальнейшее чтение

  • Shorack, G.R .; Веллнер, Дж. (1986). Эмпирические процессы с приложениями к статистике. Нью-Йорк: Вили. ISBN  0-471-86725-X.CS1 maint: ref = harv (связь)

внешняя ссылка