Эмпирическая функция распределения - Empirical distribution function
В статистика, эмпирическая функция распределения - функция распределения, связанная с эмпирическая мера из образец. Этот кумулятивная функция распределения это ступенчатая функция что подпрыгивает 1/п на каждом из п точки данных. Его значение при любом заданном значении измеряемой переменной представляет собой долю наблюдений измеряемой переменной, которые меньше или равны заданному значению.
Эмпирическая функция распределения - это оценка кумулятивной функции распределения, которая создала точки в выборке. Он сходится с вероятностью 1 к этому базовому распределению в соответствии с Теорема Гливенко – Кантелли.. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.
Определение
Позволять (Икс1, …, Иксп) быть независимые, одинаково распределенные реальные случайные величины с общими кумулятивная функция распределения F(т). Тогда эмпирическая функция распределения определяется как[1][2]
куда это индикатор из мероприятие А. За фиксированный т, индикатор это Случайная величина Бернулли с параметром п = F(т); следовательно это биномиальная случайная величина с иметь в виду нФ(т) и отклонение нФ(т)(1 − F(т)). Отсюда следует, что является беспристрастный оценщик для F(т).
Однако в некоторых учебниках это определение приводится как[3][4]
Иметь в виду
В иметь в виду эмпирического распределения является объективный оценщик среднего распределения населения.
что чаще обозначается
Дисперсия
В отклонение эмпирических времен распределения представляет собой объективную оценку дисперсии распределения населения.
Среднеквадратичная ошибка
В среднеквадратичная ошибка для эмпирического распределения выглядит следующим образом.
Где это оценщик и неизвестный параметр
Квантили
Для любого реального числа обозначение (читать «потолок а») обозначает наименьшее целое число, большее или равное . Для любого действительного числа a обозначение (читать «пол из а») означает наибольшее целое число, меньшее или равное .
Если не является целым числом, то -й квантиль уникален и равен
Если является целым числом, то -й квантиль не уникален и представляет собой любое действительное число такой, что
Эмпирическая медиана
Если нечетно, то эмпирическая медиана - это число
Если четно, то эмпирическая медиана - это число
Асимптотические свойства
Поскольку соотношение (п + 1)/п приближается к 1 как п стремится к бесконечности, асимптотические свойства двух приведенных выше определений совпадают.
Посредством сильный закон больших чисел, оценщик сходится к F(т) в качестве п → ∞ почти наверняка, для каждого значения т:[1]
таким образом, оценщик является последовательный. Это выражение утверждает поточечную сходимость эмпирической функции распределения к истинной кумулятивной функции распределения. Есть более сильный результат, называемый Теорема Гливенко – Кантелли., который утверждает, что сходимость фактически происходит равномерно по т:[5]
Sup-норма в этом выражении называется Статистика Колмогорова – Смирнова для проверки согласия между эмпирическим распределением и предполагаемая истинная кумулятивная функция распределения F. Другой нормальные функции здесь можно разумно использовать вместо sup-norm. Например, L2-норма дает начало Статистика Крамера – фон Мизеса.
Асимптотическое распределение можно дополнительно охарактеризовать несколькими различными способами. Во-первых, Центральная предельная теорема утверждает, что точечно, имеет асимптотически нормальное распределение со стандартным скорость сходимости:[1]
Этот результат дополняется Теорема Донскера, который утверждает, что эмпирический процесс , рассматриваемая как функция, индексированная , сходится в распределении в Скороход космос до среднего нуля Гауссовский процесс , куда B это стандарт Броуновский мост.[5] Ковариационная структура этого гауссовского процесса имеет вид
Равномерная скорость сходимости в теореме Донскера может быть определена количественно с помощью результата, известного как Венгерское вложение:[6]
В качестве альтернативы, скорость сходимости также может быть определено количественно в терминах асимптотического поведения sup-нормы этого выражения. В этом месте есть ряд результатов, например Неравенство Дворецкого – Кифера – Вулфовица. дает оценку хвостовых вероятностей :[6]
Фактически Колмогоров показал, что если кумулятивная функция распределения F непрерывно, то выражение сходится по распределению к , который имеет Колмогоровское распределение это не зависит от формы F.
Другой результат, который следует из закон повторного логарифма, в том, что [6]
и
Доверительные интервалы
Согласно Неравенство Дворецкого – Кифера – Вулфовица. интервал, содержащий истинный CDF, , с вероятностью указывается как
В соответствии с указанными выше границами мы можем построить эмпирические CDF, CDF и доверительные интервалы для различных распределений, используя любую из статистических реализаций. Ниже приводится синтаксис из Statsmodel для построения эмпирического распределения.
"""Эмпирические функции CDF"""импорт тупой в качестве нпиз scipy.interpolate импорт interp1ddef _conf_set(F, альфа=0.05): nobs = len(F) эпсилон = нп.sqrt(нп.бревно(2.0 / альфа) / (2 * nobs)) ниже = нп.зажим(F - эпсилон, 0, 1) верхний = нп.зажим(F + эпсилон, 0, 1) возвращаться ниже, верхнийучебный класс StepFunction: def __в этом__(себя, Икс, у, ival=0.0, отсортированный=Ложь, сторона="оставили"): если сторона.ниже() нет в ["верно", "оставили"]: сообщение = "сторона может принимать значения" вправо "или" влево "" поднимать ValueError(сообщение) себя.сторона = сторона _Икс = нп.asarray(Икс) _y = нп.asarray(у) если _Икс.форма != _y.форма: сообщение = «x и y не имеют одинаковой формы» поднимать ValueError(сообщение) если len(_Икс.форма) != 1: сообщение = "x и y должны быть одномерными" поднимать ValueError(сообщение) себя.Икс = нп.р_[-нп.инф, _Икс] себя.у = нп.р_[ival, _y] если нет отсортированный: asort = нп.argsort(себя.Икс) себя.Икс = нп.брать(себя.Икс, asort, 0) себя.у = нп.брать(себя.у, asort, 0) себя.п = себя.Икс.форма[0] def __вызов__(себя, время): звон = нп.отсортированный(себя.Икс, время, себя.сторона) - 1 возвращаться себя.у[звон]учебный класс ECDF(StepFunction): def __в этом__(себя, Икс, сторона="верно"): Икс = нп.множество(Икс, копировать=Истинный) Икс.Сортировать() nobs = len(Икс) у = нп.внутреннее пространство(1.0 / nobs, 1, nobs) супер(ECDF, себя).__в этом__(Икс, у, сторона=сторона, отсортированный=Истинный)def monotone_fn_inverter(fn, Икс, векторизованный=Истинный, **ключевые слова): Икс = нп.asarray(Икс) если векторизованный: у = fn(Икс, **ключевые слова) еще: у = [] за _Икс в Икс: у.добавить(fn(_Икс, **ключевые слова)) у = нп.множество(у) а = нп.argsort(у) возвращаться interp1d(у[а], Икс[а])если __имя__ == "__главный__": # TODO: Убедитесь, что все правильно выровнено, и сделайте черчение # функция из urllib.request импорт urlopen импорт matplotlib.pyplot в качестве plt nerve_data = urlopen("http://www.statsci.org/data/general/nerve.txt") nerve_data = нп.loadtxt(nerve_data) Икс = nerve_data / 50.0 # Было через 1/50 секунды cdf = ECDF(Икс) Икс.Сортировать() F = cdf(Икс) plt.шаг(Икс, F, куда="почтовый") ниже, верхний = _conf_set(F) plt.шаг(Икс, ниже, "р", куда="почтовый") plt.шаг(Икс, верхний, "р", куда="почтовый") plt.xlim(0, 1.5) plt.Илим(0, 1.05) plt.vlines(Икс, 0, 0.05) plt.Показать()
Статистическая реализация
Неполный список программных реализаций функции эмпирического распределения включает:
- В Программное обеспечение R, мы вычисляем эмпирическую кумулятивную функцию распределения с помощью нескольких методов построения, печати и вычислений с таким объектом «ecdf».
- В Математические работы мы можем использовать график эмпирической кумулятивной функции распределения (cdf)
- jmp от SAS, график CDF создает график эмпирической кумулятивной функции распределения.
- Minitab, создайте эмпирическую CDF
- Mathwave, мы можем подогнать распределение вероятностей к нашим данным
- Dataplot, мы можем построить эмпирический график CDF
- Scipy, используя scipy.stats, мы можем построить распределение
- Статистические модели, мы можем использовать statsmodels.distributions.empirical_distribution.ECDF
- Матплотлиб, мы можем использовать гистограммы для построения кумулятивного распределения
- Excel, мы можем построить эмпирический график CDF
Смотрите также
- Càdlàg функции
- Данные подсчета
- Распределительная арматура
- Неравенство Дворецкого – Кифера – Вулфовица.
- Эмпирическая вероятность
- Эмпирический процесс
- Оценка квантилей по выборке
- Частота (статистика)
- Оценка Каплана – Мейера для цензурированных процессов
- Функция выживания
Рекомендации
- ^ а б c ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.265. ISBN 0-521-78450-6.
- ^ PlanetMath В архиве 9 мая 2013 г. Wayback Machine
- ^ Коулз, С. (2001) Введение в статистическое моделирование экстремальных значений. Спрингер, стр. 36, определение 2.4. ISBN 978-1-4471-3675-0.
- ^ Мадсен, Х.О., Кренк, С., Линд, С.С. (2006) Методы конструктивной безопасности. Dover Publications. п. 148-149. ISBN 0486445976
- ^ а б ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.266. ISBN 0-521-78450-6.
- ^ а б c ван дер Ваарт, А.В. (1998). Асимптотическая статистика. Издательство Кембриджского университета. п.268. ISBN 0-521-78450-6.
дальнейшее чтение
- Shorack, G.R .; Веллнер, Дж. (1986). Эмпирические процессы с приложениями к статистике. Нью-Йорк: Вили. ISBN 0-471-86725-X.CS1 maint: ref = harv (связь)
внешняя ссылка
- СМИ, связанные с Эмпирические функции распределения в Wikimedia Commons