Межквартильный размах - Interquartile range

Boxplot (с межквартильным размахом) и функция плотности вероятности (pdf) Нормального N (0, σ2) численность населения

В описательная статистика, то межквартильный размах (IQR), также называемый средний, средний 50%, или же H ‑ спред, является мерой статистическая дисперсия, равное разнице между 75-м и 25-м процентили, или между верхним и нижним квартили,[1][2] IQR = Q3 −  Q1. Другими словами, IQR - это первый квартиль, вычтенный из третьего квартиля; эти квартили хорошо видны на коробчатый сюжет по данным. Это усеченная оценка, определяемый как обрезанный на 25% классифицировать, и обычно используется надежная мера масштаба.

IQR - это показатель изменчивости, основанный на разделении набора данных на квартили. Квартили делят упорядоченный набор данных на четыре равные части. Значения, разделяющие части, называются первым, вторым и третьим квартилями; и обозначаются Q1, Q2 и Q3 соответственно.

Использовать

В отличие от всего классифицировать межквартильный размах имеет точка разрушения 25%,[3] и поэтому часто предпочтительнее всего диапазона.

IQR используется для построения коробчатые участки, простые графические представления распределение вероятностей.

IQR используется в компаниях как маркер для их доход тарифы.

Для симметричного распределения (где медиана равна середина, среднее значение первого и третьего квартилей), половина IQR равна среднее абсолютное отклонение (СУМАСШЕДШИЙ).

В медиана соответствующая мера основная тенденция.

IQR можно использовать для идентификации выбросы (видеть ниже ).

Квартильное отклонение или полумежквартильный диапазон определяется как половина IQR.[4][5]

Алгоритм

IQR набора значений рассчитывается как разница между верхним и нижним квартилями Q3 и Q1. Каждый квартиль - это медиана[6] рассчитывается следующим образом.

Учитывая даже 2n или странно 2n + 1 количество значений

первый квартиль Q1 = медиана п наименьшие значения
третий квартиль Q3 = медиана п наибольшие значения[6]

В второй квартиль Q2 такое же, как и обычная медиана.[6]

Примеры

Набор данных в таблице

Следующая таблица состоит из 13 строк и соответствует правилам для нечетного количества записей.

ях [я]МедианаКвартиль
17Q2=87
(медиана всей таблицы)
Q1=31
(медиана верхней половины, с 1 по 6 ряды)
27
331
431
547
675
787
8115
Q3=119
(медиана нижней половины с 8 по 13 ряды)
9116
10119
11119
12155
13177

Для данных в этой таблице межквартильный размах составляет IQR = Q3 - Q1 = 119 - 31 = 88.

Набор данных в виде обычного текстового поля

                                                 + −−−−− + - + * | −−−−−−−−−−−− | | | −−−−−−−−−−− | + −−−−− + - + + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + −−− + числовая строка 0 1 2 3 4 5 6 7 8 9 10 11 12 

Для набора данных в этом коробчатый сюжет:

  • нижний (первый) квартиль Q1 = 7
  • медиана (второй квартиль) Q2 = 8.5
  • верхний (третий) квартиль Q3 = 9
  • межквартильный размах, IQR = Q3 - Q1 = 2
  • ниже 1,5 * IQR усы = Q1 - 1,5 * IQR = 7 - 3 = 4. (Если нет точки данных в 4, то самая низкая точка больше 4.)
  • верхний 1,5 * IQR усы = Q3 + 1,5 * IQR = 9 + 3 = 12. (Если нет точки данных на 12, то наивысшая точка меньше 12.)

Это означает, что усы 1,5 * IQR могут быть неодинаковой длины.

Распределения

Межквартильный размах непрерывного распределения можно рассчитать путем интегрирования функция плотности вероятности (что дает кумулятивная функция распределения - также будут работать любые другие способы расчета CDF). Нижний квартиль, Q1, - такое число, что интеграл PDF от -∞ до Q1 равно 0,25, а верхний квартиль Q3, такое число, что интеграл от -∞ до Q3 равно 0,75; в терминах CDF квартили можно определить следующим образом:

где CDF−1 это квантильная функция.

Межквартильный размах и медиана некоторых распространенных распределений показаны ниже.

РаспределениеМедианаIQR
Нормальныйμ2 Φ−1(0,75) σ ≈ 1,349σ ≈ (27/20) σ
Лапласμ2б ln (2) ≈ 1,386б
Кошиμ

Тест межквартильного размаха на нормальность распределения

IQR, иметь в виду, и стандартное отклонение населения п можно использовать для простой проверки того, действительно ли п является нормально распределенный, или по Гауссу. Если п нормально распределяется, то стандартная оценка первого квартиля, z1, составляет -0,67, а стандартная оценка третьего квартиля, z3, составляет +0,67. Данный иметь в виду = Икс и стандартное отклонение = σ для п, если п нормально распределяется, первый квартиль

и третий квартиль

Если фактические значения первого или третьего квартилей существенно различаются[требуется разъяснение ] из расчетных значений, п не распространяется нормально. Однако нормальное распределение можно тривиально изменить, чтобы сохранить его Q1 и Q2 std. баллы 0,67 и -0,67 и не имеют нормального распределения (так что вышеупомянутый тест даст ложноположительный результат). Лучшая проверка нормальности, например График Q-Q здесь будет указано.

Выбросы

Прямоугольный сюжет с четырьмя умеренными выбросами и одним экстремальным выбросом. На этом графике выбросы определяются как умеренные, выше Q3 + 1,5 IQR, и как экстремальные, выше Q3 + 3 IQR.

Межквартильный размах часто используется для определения выбросы в данных. Выбросы здесь определяются как наблюдения, которые падают ниже Q1 - 1,5 IQR или выше Q3 + 1,5 IQR. На диаграмме высшее и наименьшее значения в пределах этого предела обозначены усы коробки (часто с дополнительной полосой на конце уса) и любые выбросы как отдельные точки.

Смотрите также

Рекомендации

  1. ^ Аптон, Грэм; Кук, Ян (1996). Понимание статистики. Издательство Оксфордского университета. п. 55. ISBN  0-19-914391-9.
  2. ^ Цвиллинджер, Д., Кокоска, С. (2000) Стандартные таблицы вероятностей и статистики CRC и формулы, CRC Press. ISBN  1-58488-059-7 стр.18.
  3. ^ Rousseeuw, Peter J .; Кру, Кристоф (1992). Ю. Додж (ред.). «Явные шкалы для оценки с высокой точкой пробоя» (PDF). L1-Статистический анализ и связанные методы. Амстердам: Северная Голландия. С. 77–92.
  4. ^ Юль, Г. Удный (1911). Введение в теорию статистики. Чарльз Гриффин и компания. стр.147 –148.
  5. ^ Вайсштейн, Эрик В. «Квартильное отклонение». MathWorld.
  6. ^ а б c Bertil., Westergren (1988). Справочник по бета [бета] математике: концепции, теоремы, методы, алгоритмы, формулы, графики, таблицы. Студент. п. 348. ISBN  9144250517. OCLC  18454776.

внешняя ссылка