Усеченное среднее - Truncated mean

А усеченное среднее или же усеченное среднее это статистический мера центральной тенденции, как и иметь в виду и медиана. Он включает в себя расчет среднего после отбрасывания заданных частей распределение вероятностей или же образец на высоком и низком уровне, и обычно отбрасывают одинаковое количество обоих. Это количество отбрасываемых баллов обычно указывается в процентах от общего количества баллов, но также может быть дано как фиксированное количество баллов.

Для большинства статистических приложений отбрасывается от 5 до 25 процентов концов. Например, для набора из 8 точек при обрезке на 12,5% будут отброшены минимальное и максимальное значение в выборке: наименьшее и наибольшее значения, а также будет вычислено среднее значение оставшихся 6 точек. Усеченное на 25% среднее (когда отбрасываются самые низкие 25% и самые высокие 25%) известно как межквартильное среднее.

Медиану можно рассматривать как полностью усеченное среднее значение, и она является наиболее надежной. Как и в случае с другими урезанные оценки, главное преимущество усеченного среднего - надежность и более высокая эффективность для смешанных распределений и распределений с тяжелым хвостом (например, Распределение Коши ) за счет более низкой эффективности для некоторых других распределений с меньшими хвостами (например, нормального распределения). Для промежуточных распределений разница между эффективностью среднего и медианы не очень велика, например для t-распределения Стьюдента с 2 степенями свободы дисперсии среднего и медианного значений почти равны.

Терминология

В некоторых регионах Центральная Европа он также известен как Виндзор среднее,[нужна цитата ] но это имя не следует путать с Winsorized среднее: в последнем случае наблюдения, которые отбрасывается усеченным средним, вместо этого заменяются наибольшим / наименьшим из оставшихся значений.

Отказ от максимума и минимума известен как модифицированное среднее, особенно в управленческой статистике.[1] Это также известно как Олимпийский средний (например, в сельском хозяйстве США, например Выборка среднего дохода от урожая ), из-за его использования в олимпийских соревнованиях, таких как Система судейства ИСУ в фигурное катание, чтобы сделать оценку надежной для одного судьи, выбивающего из результатов.[2]

Интерполяция

Когда процент отбрасываемых точек не дает целого числа, усеченное среднее значение может быть определено путем интерполяции, обычно линейной интерполяции, между ближайшими целыми числами. Например, если вам нужно вычислить 15% усеченное среднее для выборки, содержащей 10 записей, строго это будет означать отбрасывание по одной точке с каждого конца (что эквивалентно 10% усеченному среднему). При интерполяции можно было бы вместо этого вычислить 10% усеченное среднее (отбрасывая по 1 точке с каждого конца) и 20% усеченное среднее (отбрасывая 2 точки с каждого конца), а затем интерполировать, в данном случае усредняя эти два значения. Точно так же, если интерполировать усеченное на 12% среднее значение, можно взять средневзвешенное: взвешивать 10% усеченное среднее значение на 0,8 и 20% усеченное среднее значение на 0,2.

Преимущества

Усеченное среднее - полезная оценка, поскольку она менее чувствительна к выбросы чем среднее значение, но все же даст разумную оценку центральной тенденции или среднего для многих статистических моделей. В связи с этим его называют робастная оценка. Например, при использовании в олимпийском судействе усечение максимума и минимума не позволяет единоличному судье повышать или понижать общую оценку, выставляя исключительно высокую или низкую оценку.

Одна ситуация, в которой может быть выгодно использовать усеченное среднее значение, - это оценка параметр местоположения из Распределение Коши, колоколообразное распределение вероятностей с (намного) более толстыми хвостами, чем у нормальное распределение. Можно показать, что усеченное среднее среднего 24% выборки статистика заказов (т. е. усечь выборку на 38% с каждого конца) дает оценку параметра местоположения совокупности, которая более эффективна, чем использование медианы выборки или полного среднего значения выборки.[3][4] Однако из-за толстых хвостов распределения Коши эффективность оценщика уменьшается по мере того, как в оценке используется больше выборки.[3][4] Обратите внимание, что для распределения Коши ни усеченное среднее, ни среднее значение полной выборки, ни медиана выборки не представляют собой максимальная вероятность оценщик, и ни один из них не является столь же асимптотически эффективным, как оценка максимального правдоподобия; однако оценку максимального правдоподобия вычислить труднее, поэтому в качестве полезной альтернативы остается усеченное среднее.[4][5]

Недостатки

Усеченное среднее использует больше информации из распределения или образец чем медиана, но если базовое распределение не симметричный, усеченное среднее значение выборки вряд ли даст объективный оценщик либо для среднего, либо для медианы.

Статистические тесты

Возможно выполнение T-тест Стьюдента на основе усеченного среднего, который называется t-критерием Юэна [6][7], который также имеет несколько реализаций в р. [8][9]

Примеры

Метод подсчета очков, используемый во многих спортивный которые оцениваются судейской коллегией, представляют собой усеченное среднее: отбросить самые низкие и самые высокие оценки; рассчитать среднее значение оставшихся баллов.[10]

В Libor базовая процентная ставка рассчитанный в качестве усеченного среднего: при 18 ответах верхние 4 и нижние 4 отбрасываются, а оставшиеся 10 усредняются (с коэффициентом обрезки 4/18 ≈ 22%).[11]

Рассмотрим набор данных, состоящий из:

{92, 19, 101, 58, 1053, 91, 26, 78, 10, 13, −40, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 20, среднее = 101,5)

5-й процентиль (-6,75) находится между -40 и -5, а 95-й процентиль (148,6) - между 101 и 1053 (значения выделены жирным шрифтом). Тогда усеченное на 5% среднее приведет к следующему:

{92, 19, 101, 58, 91, 26, 78, 10, 13, 101, 86, 85, 15, 89, 89, 28, −5, 41} (N = 18, среднее значение = 56,5)

Этот пример можно сравнить с примером, использующим Winsorising процедура.

Смотрите также

Рекомендации

  1. ^ Арулможи, Г .; Статистика для менеджмента, 2-е издание, Tata McGraw-Hill Education, 2009 г., стр. 458
  2. ^ Пол Э. Петерсон (3 августа 2012 г.). «Уроки LIBOR». После составления котировок LIBOR использует процесс усеченного среднего, при котором высшие и наименьшие значения отбрасываются, а оставшиеся значения усредняются. Его иногда называют «олимпийским средним», поскольку он используется на Олимпийских играх, чтобы исключить влияние предвзятого судьи на окончательный результат спортсмена.
  3. ^ а б Ротенберг, Томас Дж .; Фишер, Франклин, М .; Тиланус, C.B. (1964). «Примечание об оценке по выборке коши». Журнал Американской статистической ассоциации. 59 (306): 460–463. Дои:10.1080/01621459.1964.10482170.
  4. ^ а б c Блох, Даниэль (1966). «Примечание об оценке параметров местоположения распределения Коши». Журнал Американской статистической ассоциации. 61 (316): 852–855. Дои:10.1080/01621459.1966.10480912. JSTOR  2282794.
  5. ^ Фергюсон, Томас С. (1978). «Оценки максимального правдоподобия параметров распределения Коши для выборок размера 3 и 4». Журнал Американской статистической ассоциации. 73 (361): 211. Дои:10.1080/01621459.1978.10480031. JSTOR  2286549.
  6. ^ Юэн, К. (1974) Две выборки урезали t для неравных дисперсий совокупности. Биометрика, 61, 165-170.
  7. ^ Уилкокс, Р.Р. (2005). Введение в робастную оценку и проверку гипотез. Академическая пресса.
  8. ^ https://cran.r-project.org/web/packages/WRS2/
  9. ^ https://cran.r-project.org/web/packages/DescTools/
  10. ^ Бялик, Карл (27 июля 2012 г.). «Устранение предвзятости судей - задача олимпийского размера». Журнал "Уолл Стрит. Получено 7 сентября 2014.
  11. ^ "bbalibor: основы". Британская ассоциация банкиров.