Влиятельное наблюдение - Influential observation

В Квартет анскомба два наборы данных внизу оба содержат влиятельные точки. Все четыре набора идентичны при рассмотрении с использованием простой сводной статистики, но значительно различаются на графике. Если бы одну точку убрали, линия выглядела бы совсем иначе.

В статистика, влиятельное наблюдение это наблюдение для статистический расчет чье удаление из набора данных заметно изменило бы результат расчета.[1] В частности, в регрессивный анализ Влиятельное наблюдение - это наблюдение, удаление которого сильно влияет на оценки параметров.[2]

Оценка

Были предложены различные методы измерения влияния.[3][4] Предположим предполагаемую регрессию , куда является п× 1 вектор-столбец для переменной ответа, это п×k матрица дизайна независимых переменных (включая константу), это п× 1 остаточный вектор, и это k× 1 вектор оценок некоторого параметра популяции . Также определите , то матрица проекции из . Тогда у нас есть следующие меры влияния:

  1. , куда обозначает коэффициенты, оцененные с помощью я-бросать из удалено, обозначает я-й ряд . Таким образом, DFBETA измеряет разницу в оценке каждого параметра с учетом и без точки влияния. Существует DFBETA для каждой переменной и каждого наблюдения (если есть N наблюдения и k переменных есть N · k DFBETA).[5] В таблице показаны DFBETA для третьего набора данных из квартета Анскомба (нижний левый график на рисунке):
Иксуперехватитьсклон
10.07.46-0.005-0.044
8.06.77-0.0370.019
13.012.74-357.910525.268
9.07.11-0.0330
11.07.810.049-0.117
14.08.840.490-0.667
6.06.080.027-0.021
4.05.390.241-0.209
12.08.150.137-0.231
7.06.42-0.0200.013
5.05.730.105-0.087
  1. DFFITS - разница в посадках
  2. Повара D измеряет влияние удаления точки данных на все параметры вместе взятые.[2]

Выбросы, рычаги воздействия и влияние

An выброс можно определить как точка данных это существенно отличается от других наблюдений.[6][7]А точка с высоким кредитным плечом - наблюдения, сделанные при экстремальных значениях независимых переменных.[8]Оба типа нетипичных наблюдений заставят линию регрессии приблизиться к точке.[2] В квартете Анскомба на правом нижнем изображении есть точка с большим рычагом, а на нижнем левом изображении - удаленная точка.

Смотрите также

Рекомендации

  1. ^ Берт, Джеймс Э .; Барбер, Джеральд М .; Ригби, Дэвид Л. (2009), Элементарная статистика для географов, Guilford Press, стр. 513, г. ISBN  9781572304840.
  2. ^ а б c Эверит, Брайан (1998). Кембриджский статистический словарь. Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN  0-521-59346-8.
  3. ^ Победитель, Ларри (25 марта 2002 г.). «Статистика влияния, выбросы и диагностика коллинеарности».
  4. ^ Белсли, Дэвид А .; Кух, Эдвин; Валлийский, Рой Э. (1980). Регрессионная диагностика: выявление важных данных и источников коллинеарности. Ряд Уайли по вероятности и математической статистике. Нью-Йорк: Джон Уайли и сыновья. С. 11–16. ISBN  0-471-05856-4.
  5. ^ «Выбросы и DFBETA» (PDF). В архиве (PDF) из оригинала от 11 мая 2013 г.
  6. ^ Граббс, Ф. Э. (февраль 1969 г.). «Порядок обнаружения в выборках выбросов». Технометрика. 11 (1): 1–21. Дои:10.1080/00401706.1969.10490657. Экстрактивное наблюдение или «выброс» - это наблюдение, которое заметно отличается от других членов выборки, в которой оно происходит.
  7. ^ Маддала, Г.С. (1992). "Выбросы". Введение в эконометрику (2-е изд.). Нью-Йорк: Макмиллан. стр.89. ISBN  978-0-02-374545-4. Выброс - это наблюдение, которое далеко от остальных наблюдений.
  8. ^ Эверитт, Б. С. (2002). Кембриджский статистический словарь. Издательство Кембриджского университета. ISBN  0-521-81099-X.

дальнейшее чтение

  • Дехон, Екатерина; Гасснер, Марджори; Верарди, Винченцо (2009). «Остерегайтесь« хороших »отклонений и чрезмерно оптимистичных выводов». Оксфордский бюллетень экономики и статистики. 71 (3): 437–452. Дои:10.1111 / j.1468-0084.2009.00543.x.
  • Кеннеди, Питер (2003). «Надежная оценка». Руководство по эконометрике (Пятое изд.). Кембридж: MIT Press. С. 372–388. ISBN  0-262-61183-X.