Квартиль - Quartile

В статистика, а квартиль это тип квантиль который делит количество точек данных на четыре части, или четверти, более или менее равного размера. Для вычисления квартилей данные должны быть упорядочены от наименьшего к наибольшему; как таковые квартили представляют собой форму статистика заказов. Три основных квартиля следующие:

  • Первый квартиль (Q1) определяется как среднее число между наименьшим числом (минимум ) и медиана набора данных. Он также известен как ниже или же 25-й эмпирический квартиль, поскольку 25% данных ниже этой точки.
  • Второй квартиль (Q2) - медиана набора данных; таким образом, 50% данных находится ниже этой точки.
  • Третий квартиль (Q3) - среднее значение между медианой и наибольшим значением (максимум ) набора данных. Он известен как верхний или же 75-й эмпирический квартиль, поскольку 75% данных находятся ниже этой точки.[1]

Наряду с минимумом и максимумом данных (которые также являются квартилями) три описанные выше квартили обеспечивают пятизначное резюме данных. Эта сводка важна для статистики, поскольку она предоставляет информацию как о центр и распространять данных. Знание нижнего и верхнего квартилей дает информацию о том, насколько велик разброс и является ли набор данных перекошенный в одну сторону. Поскольку квартили делят количество точек данных поровну, классифицировать не одно и то же между квартилями (т. е. Q3-Q2Q2-Q1) и вместо этого известен как межквартильный размах (IQR). В то время как максимум и минимум также показывают разброс данных, верхний и нижний квартили могут предоставить более подробную информацию о расположении конкретных точек данных, наличии выбросы в данных, а также разница в разбросе между средними 50% данных и внешними точками данных.[2]

Определения

Boxplot (с квартилями и межквартильный размах ) и функция плотности вероятности (pdf) нормального N (0,1σ2) численность населения
СимволИменаОпределение
Q1
отделяет самые низкие 25% данных от самых высоких 75%
Q2
сокращает набор данных вдвое
Q3
  • третий квартиль
  • верхний квартиль
  • 75-й процентиль
отделяет самые высокие 25% данных от самых низких 75%

Вычислительные методы

Дискретные распределения

Для дискретных распределений нет единого мнения о выборе значений квартилей.[3]

Способ 1

  1. Использовать медиана чтобы разделить упорядоченный набор данных на две половины.
    • Если в исходном упорядоченном наборе данных есть нечетное количество точек данных, не включать медиана (центральное значение в упорядоченном списке) в любой половине.
    • Если в исходном упорядоченном наборе данных четное количество точек данных, разделите этот набор данных ровно пополам.
  2. Значение нижнего квартиля - это медиана нижней половины данных. Значение верхнего квартиля - это медиана верхней половины данных.

Это правило используется ТИ-83 калькулятор ящик и функции "1-Var Stats".

Способ 2

  1. Использовать медиана чтобы разделить упорядоченный набор данных на две половины.
    • Если в исходном упорядоченном наборе данных есть нечетное количество точек данных, включают медиана (центральное значение в упорядоченном списке) в обеих половинах.
    • Если в исходном упорядоченном наборе данных есть четное количество точек данных, разделите этот набор данных точно пополам.
  2. Значение нижнего квартиля - это медиана нижней половины данных. Значение верхнего квартиля - это медиана верхней половины данных.

Значения, найденные этим методом, также известны как "Tukey петли »;[4] смотрите также середина.

Способ 3

  1. Если есть четное количество точек данных, то метод 3 такой же, как и любой из описанных выше методов.
  2. Если есть (4п+1) точек данных, то нижний квартиль составляет 25% от п-ое значение данных плюс 75% от (п+1) -ое значение данных; верхний квартиль составляет 75% от (3п+1) -я точка данных плюс 25% от (3п+2) -я точка данных.
  3. Если есть (4п+3) точек данных, то нижний квартиль составляет 75% от (п+1) -го значения данных плюс 25% от (п+2) -ое значение данных; верхний квартиль составляет 25% от (3п+2) -я точка данных плюс 75% от (3п+3) -я точка данных.

Метод 4

Если у нас есть упорядоченный набор данных , мы можем интерполировать между точками данных, чтобы найти эмпирический квантиль если находится в квантиль. Если обозначить целую часть числа к , то эмпирическая функция квантиля определяется выражением

,

куда и .[1]

Чтобы найти первый, второй и третий квартили набора данных, мы оценим , , и соответственно.

Пример 1

Заказанный набор данных: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49

Способ 1Способ 2Способ 3Метод 4
Q11525.520.2515
Q240404040
Q34342.542.7543

Пример 2

Заказанный набор данных: 7, 15, 36, 39, 40, 41

Поскольку имеется четное количество точек данных, все первые три метода дают одинаковые результаты.

Способ 1Способ 2Способ 3Метод 4
Q115151513
Q237.537.537.537.5
Q340404040.25

Непрерывные распределения вероятностей

Квартили на кумулятивной функции распределения нормального распределения

Если мы определим непрерывные распределения вероятностей в качестве куда это реальная ценность случайная переменная, это кумулятивная функция распределения (CDF) определяется выражением

.[1]

В CDF дает вероятность того, что случайная величина меньше значения . Следовательно, первый квартиль - это значение когда , второй квартиль когда , а третий квартиль - когда .[5] Ценности можно найти с квантильная функция куда для первого квартиля, для второго квартиля, и для третьего квартиля. Функция квантиля обратна кумулятивной функции распределения, если кумулятивная функция распределения равна монотонно возрастающий.

Выбросы

Есть методы, с помощью которых можно проверить выбросы в дисциплине статистики и статистического анализа. Выбросы могут быть результатом изменения местоположения (среднего) или масштаба (изменчивости) интересующего процесса.[6] Выбросы также могут свидетельствовать о выборочной совокупности, имеющей ненормальное распределение, или о загрязненном наборе данных о населении. Следовательно, как и основная идея описательная статистика, при встрече с выброс, мы должны объяснить это значение дальнейшим анализом причины или происхождения выброса. В случаях экстремальных наблюдений, которые случаются нередко, необходимо проанализировать типичные значения. В случае квартилей Межквартильный размах (IQR) может использоваться для характеристики данных, когда могут быть крайности, которые искажают данные; то межквартильный размах относительно надежная статистика (также иногда называемое «сопротивлением») по сравнению с классифицировать и стандартное отклонение. Существует также математический метод для проверки выбросов и определения «ограждений», верхних и нижних пределов, от которых следует проверять выбросы.

После определения первого и третьего квартилей и межквартильного размаха, как указано выше, заборы рассчитываются по следующей формуле:

Коробчатая диаграмма с выбросами

куда Q1 и Q3 - первая и третья квартили соответственно. Нижняя граница - это «нижняя граница», а верхняя граница - «верхняя граница» данных, и любые данные, выходящие за эти определенные границы, можно рассматривать как выброс. Таким случаем можно считать все, что ниже Нижнего ограждения или выше Верхнего ограждения. Ограды служат ориентиром для определения выброс, который можно определить по-другому. Ограждения определяют «диапазон», за пределами которого существует выброс; способ изобразить это - граница забора, за пределами которой находятся «посторонние», в отличие от выбросов. Обычно нижние и верхние ограждения вместе с выбросами представляются ящик. Для блочной диаграммы только вертикальные высоты соответствуют визуализированному набору данных, в то время как горизонтальная ширина прямоугольника не имеет значения. Выбросы, расположенные за ограждениями на коробчатой ​​диаграмме, могут быть отмечены любым выбранным символом, например, «x» или «o». Заборы иногда также называют «усами», в то время как весь визуальный элемент сюжета называется сюжетом «ящик и усы».

При обнаружении выброса в наборе данных путем расчета межквартильных размахов и характеристик коробчатой ​​диаграммы может быть просто ошибочно рассматривать его как свидетельство того, что совокупность ненормальна или что выборка загрязнена. Однако этот метод не должен заменять проверка гипотез для определения нормальности населения. Значимость выбросов варьируется в зависимости от размера выборки. Если выборка мала, то более вероятно получение нерепрезентативно малых межквартильных диапазонов, что приведет к более узким границам. Следовательно, было бы больше шансов найти данные, помеченные как выбросы.[7]

Программное обеспечение для квартилей

Excel:

Функция Excel КВАРТИЛЬ (массив; кварта) предоставляет желаемое значение квартиля для заданного массива данных. в Квартиль функция, массив - это набор данных чисел, который анализируется, а кварт - любое из следующих 5 значений в зависимости от того, какой квартиль вычисляется. [8]

КвартаВыходное значение QUARTILE
0Минимальное значение
1Нижний квартиль (25-й процентиль)
2Медиана
3Верхний квартиль (75-й процентиль)
4Максимальное значение

MATLAB:

Для расчета квартилей в Matlab функция квантиль (A, p) может быть использован. Где A - вектор анализируемых данных, а p - процент, относящийся к квартилям, как указано ниже. [9]

пВыходное значение QUARTILE
0Минимальное значение
0.25Нижний квартиль (25-й процентиль)
0.5Медиана
0.75Верхний квартиль (75-й процентиль)
1Максимальное значение

Смотрите также

Рекомендации

  1. ^ а б c Современное введение в вероятность и статистику: понимание, почему и как. Деккинг, Мишель, 1946–. Лондон: Спрингер. 2005. С.234 –238. ISBN  978-1-85233-896-1. OCLC  262680588.CS1 maint: другие (связь)
  2. ^ Кнох, Джессика (23 февраля 2018 г.). "Как квартили используются в статистике?". Блог Magoosh Statistics. Получено 11 декабря, 2019.
  3. ^ Гайндман, Роб Дж; Фан, Янан (ноябрь 1996 г.). «Выборочные квантили в статистических пакетах». Американский статистик. 50 (4): 361–365. Дои:10.2307/2684934. JSTOR  2684934.
  4. ^ Тьюки, Джон Уайлдер (1977). Исследовательский анализ данных. ISBN  978-0-201-07616-5.
  5. ^ «6. Функции распределения и квантили» (PDF). math.bme.hu.
  6. ^ Уолфиш, Стивен (ноябрь 2006 г.). «Обзор метода статистических выбросов». Фармацевтические технологии.
  7. ^ Доусон, Роберт (1 июля 2011 г.). «Насколько существенны выбросы коробчатой ​​диаграммы?». Журнал статистики образования. 19 (2): ноль. Дои:10.1080/10691898.2011.11889610.
  8. ^ «Как использовать функцию КВАРТИЛЬ Excel | Exceljet». exceljet.net. Получено 11 декабря, 2019.
  9. ^ «Квантили набора данных - квантиль MATLAB». www.mathworks.com. Получено 11 декабря, 2019.

внешняя ссылка