Квартет анскомб - Anscombes quartet

Все четыре набора идентичны при рассмотрении с использованием простой сводной статистики, но значительно различаются на графике.

Квартет анскомба состоит из четырех наборы данных которые имеют почти идентичные простые описательная статистика, но очень разные распределения и выглядят совсем иначе, когда нарисованный. Каждый набор данных состоит из одиннадцати (Икс,у) точки. Они были построены в 1973 г. статистик Фрэнсис Анскомб чтобы продемонстрировать важность построения графиков данных перед их анализом и влияние выбросы и другие влиятельные наблюдения по статистическим свойствам. Он описал, что эта статья призвана опровергнуть впечатление статистиков о том, что «численные расчеты точны, а графики грубые».[1]

Данные

Для всех четырех наборов данных:

СвойствоЦенитьТочность
Иметь в виду из Икс9точный
Образец отклонение из Икс : sИкс11точный
Среднее значение у7.50до 2 знаков после запятой
Выборочная дисперсия у : sу4.125±0.003
Корреляция между Икс и у0.816до 3-х знаков после запятой
Линейная регрессия линияу = 3.00 + 0.500Иксдо 2 и 3 знаков после запятой соответственно
Коэффициент детерминации линейной регрессии: 0.67до 2 знаков после запятой
  • Первый диаграмма рассеяния (вверху слева) кажется простым линейная связь, что соответствует двум переменные коррелирован, где y можно смоделировать как гауссовский со средним, линейно зависящим от x.
  • Второй график (вверху справа) не распространяется нормально; хотя связь между двумя переменными очевидна, она не является линейной, и Коэффициент корреляции Пирсона не актуально. Более общая регрессия и соответствующий коэффициент детерминации было бы более уместно.
  • На третьем графике (внизу слева) распределение линейное, но должно иметь другое линия регрессиинадежная регрессия был бы востребован). Рассчитанная регрессия компенсируется одним выброс что оказывает достаточное влияние, чтобы понизить коэффициент корреляции с 1 до 0,816.
  • Наконец, четвертый график (внизу справа) показывает пример, когда один точка с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.

Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с конкретным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.[2][3][4][5][6]

Наборы данных следующие. В Икс значения одинаковы для первых трех наборов данных.[1]

Квартет анскомба
яIIIIIIV
ИксуИксуИксуИксу
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Неизвестно, как Анскомб создавал свои наборы данных.[7] С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходными графиками.[7][8]

Смотрите также

Рекомендации

  1. ^ а б Анскомб, Ф. Дж. (1973). «Графики в статистическом анализе». Американский статистик. 27 (1): 17–21. Дои:10.1080/00031305.1973.10478966. JSTOR  2682899.
  2. ^ Элерт, Гленн. "Линейная регрессия". Гипертекст по физике.
  3. ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом. O'Reilly Media. стр.65–66. ISBN  0-596-80235-8.
  4. ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере. Джон Уайли и сыновья. п. 91. ISBN  0-471-74696-7.
  5. ^ Сэвилл, Дэвид Дж .; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход. Springer. п. 418. ISBN  0-387-97517-9.
  6. ^ Тафт, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN  0-9613921-4-2.
  7. ^ а б Чаттерджи, Сангит; Фират, Айкут (2007). «Создание данных с идентичной статистикой, но с разной графикой: продолжение набора данных Anscombe». Американский статистик. 61 (3): 248–254. Дои:10.1198 / 000313007X220057. JSTOR  27643902.
  8. ^ Матейка, Джастин; Фитцморис, Джордж (2017). «Та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными посредством имитации отжига». Материалы конференции CHI по человеческому фактору в вычислительных системах 2017 г.: 1290–1294. Дои:10.1145/3025453.3025912.

внешняя ссылка