Расстояние повара - Cooks distance
В статистика, Расстояние повара или же Повара D является обычно используемой оценкой влияние точки данных при выполнении метода наименьших квадратов регрессивный анализ.[1] В практическом обыкновенный метод наименьших квадратов При анализе расстояние Кука можно использовать несколькими способами: для обозначения важных точек данных, достоверность которых особенно стоит проверить; или указать области пространства дизайна, где было бы хорошо получить больше точек данных. Он назван в честь американского статистика. Р. Деннис Кук, который представил концепцию в 1977 году.[2][3]
Определение
Точки данных с большим остатки (выбросы ) и / или высокий использовать может исказить результат и точность регрессии. Расстояние Кука измеряет эффект удаления данного наблюдения. Считается, что точки с большим расстоянием Кука заслуживают более внимательного изучения при анализе.
Для алгебраического выражения сначала определите
куда это срок ошибки, - матрица коэффициентов, - количество ковариат или предикторов для каждого наблюдения, и это матрица дизайна включая константу. В наименьших квадратов тогда оценка , и, следовательно, подобранные (предсказанные) значения для среднего находятся
куда это матрица проекции (или шляпная матрица). В -й диагональный элемент , данный ,[4] известен как использовать из -е наблюдение. Точно так же -й элемент остаточного вектора обозначается .
Расстояние повара наблюдения определяется как сумма всех изменений в регрессионной модели при наблюдении удален из него[5]
куда является подобранным значением отклика, полученным при исключении , и это среднеквадратичная ошибка регрессионной модели.[6]
Точно так же это можно выразить с помощью кредитного плеча.[5] ():
Обнаружение очень важных наблюдений
Существуют разные мнения относительно того, какие пороговые значения использовать для определения высоких влиятельные точки. Поскольку расстояние Кука находится в метрике F распределение с и (как определено для матрицы проектирования выше) степеней свободы, средняя точка (т. е. ) можно использовать в качестве отсечки.[7] Поскольку это значение близко к 1 для больших , простое руководство по эксплуатации было предложено.[8]Обратите внимание, что мера расстояния Кука не всегда правильно определяет важные наблюдения.[9]
Связь с другими мерами влияния (и интерпретация)
можно выразить с помощью Использовать[5] () и квадрат внутри Студентизованный остаток (), следующее:
Преимущество последней формулировки состоит в том, что она ясно показывает взаимосвязь между и к (при этом p и n одинаковы для всех наблюдений). Если велико (для неэкстремальных значений ) увеличится . Если близко к 0, чем будет маленьким, а если близко к 1, тогда станет очень большим (пока , то есть: что наблюдение не совсем на линии регрессии, которая была подогнана без наблюдения ).
относится к DFFITS через следующие отношения (обратите внимание, что это внешне студенизированный остаток, и определены здесь ):
можно интерпретировать как расстояние, на которое оценки перемещаются внутри доверительного эллипсоида, который представляет собой область вероятных значений параметров.[требуется разъяснение ] Это показано альтернативным, но эквивалентным представлением расстояния Кука в терминах изменений оценок параметров регрессии между случаями, когда конкретное наблюдение либо включено, либо исключено из регрессионного анализа.
Программные реализации
Многие программы и статистические пакеты, такие как р, Python и т. д., включают реализации расстояния Кука.
Язык / Программа | Функция | Примечания |
---|---|---|
р | cooks.distance (модель, ...) | Видеть [1] |
Python | CooksDistance (). Fit (X, y) | Видеть [2] |
Расширения
Измерение влияния больших размеров (HIM), является альтернативой расстоянию Кука, когда (т.е. больше предсказателей, чем наблюдений).[10] В то время как расстояние Кука количественно определяет влияние отдельного наблюдения на оценку коэффициента регрессии методом наименьших квадратов, HIM измеряет влияние наблюдения на предельные корреляции.
Смотрите также
Рекомендации
- ^ Менденхолл, Уильям; Синчич, Терри (1996). Второй курс статистики: регрессионный анализ (5-е изд.). Река Аппер Сэдл, штат Нью-Джерси: Прентис-Холл. п. 422. ISBN 0-13-396821-9.
Мера общего влияния отдаленного наблюдения на предполагаемую коэффициенты были предложены Р. Д. Куком (1979). Дистанция Кука, Dя, рассчитывается ...
- ^ Кук, Р. Деннис (февраль 1977 г.). «Обнаружение влиятельных наблюдений в линейной регрессии». Технометрика. Американская статистическая ассоциация. 19 (1): 15–18. Дои:10.2307/1268249. JSTOR 1268249. МИСТЕР 0436478.
- ^ Кук, Р. Деннис (март 1979 г.). «Влиятельные наблюдения в линейной регрессии». Журнал Американской статистической ассоциации. Американская статистическая ассоциация. 74 (365): 169–174. Дои:10.2307/2286747. HDL:11299/199280. JSTOR 2286747. МИСТЕР 0529533.
- ^ Хаяси, Фумио (2000). Эконометрика. Издательство Принстонского университета. С. 21–23. ISBN 1400823838.
- ^ а б c «Поварская дистанция».
- ^ «Статистика 512: прикладные линейные модели» (PDF). Университет Пердью. Архивировано из оригинал (PDF) в 2016-11-30. Получено 2016-03-25.
- ^ Боллен, Кеннет А.; Джекман, Роберт В. (1990). «Регрессионная диагностика: подробное описание отклонений и важных случаев». В Fox, Джон; Лонг, Дж. Скотт (ред.). Современные методы анализа данных. Ньюбери-Парк, Калифорния: Сейдж. стр.266. ISBN 0-8039-3366-5.
- ^ Кук, Р. Деннис; Вайсберг, Сэнфорд (1982). Остатки и влияние на регресс. Нью-Йорк, Нью-Йорк: Чепмен и Холл. HDL:11299/37076. ISBN 0-412-24280-X.
- ^ Ким, Мён Гын (31 мая 2017 г.). «Предупреждение об использовании расстояния Кука». Коммуникации для статистических приложений и методов. 24 (3): 317–324. Дои:10.5351 / csam.2017.24.3.317. ISSN 2383-4757.
- ^ Мера влияния большой размерности
дальнейшее чтение
- Аткинсон, Энтони; Риани, Марко (2000). «Диагностика удаления». Надежная диагностика и регрессионный анализ. Нью-Йорк: Спрингер. С. 22–25. ISBN 0-387-95017-6.
- Heiberger, Richard M .; Голландия, Берт (2013). «Статистика дел». Статистический анализ и отображение данных. Springer Science & Business Media. С. 312–27. ISBN 9781475742848.
- Краскер, Уильям S .; Кух, Эдвин; Велш, Рой Э. (1983). «Оценка грязных данных и ошибочных моделей». Справочник по эконометрике. 1. Эльзевир. С. 651–698. Дои:10.1016 / S1573-4412 (83) 01015-6. ISBN 9780444861856.
- Агинис, Герман; Готтфредсон, Райан К .; Джу, Гарри (2013). «Рекомендации по передовой практике для определения и обработки выбросов». Организационные методы исследования. Мудрец. 16 (2): 270–301. Дои:10.1177/1094428112470848. S2CID 54916947. Получено 4 декабря 2015.