Квартет анскомб - Anscombes quartet
Квартет анскомба состоит из четырех наборы данных которые имеют почти идентичные простые описательная статистика, но очень разные распределения и выглядят совсем иначе, когда нарисованный. Каждый набор данных состоит из одиннадцати (Икс,у) точки. Они были построены в 1973 г. статистик Фрэнсис Анскомб чтобы продемонстрировать важность построения графиков данных перед их анализом и влияние выбросы и другие влиятельные наблюдения по статистическим свойствам. Он описал, что эта статья призвана опровергнуть впечатление статистиков о том, что «численные расчеты точны, а графики грубые».[1]
Данные
Для всех четырех наборов данных:
Свойство | Ценить | Точность |
---|---|---|
Иметь в виду из Икс | 9 | точный |
Образец отклонение из Икс : sИкс | 11 | точный |
Среднее значение у | 7.50 | до 2 знаков после запятой |
Выборочная дисперсия у : sу | 4.125 | ±0.003 |
Корреляция между Икс и у | 0.816 | до 3-х знаков после запятой |
Линейная регрессия линия | у = 3.00 + 0.500Икс | до 2 и 3 знаков после запятой соответственно |
Коэффициент детерминации линейной регрессии: | 0.67 | до 2 знаков после запятой |
- Первый диаграмма рассеяния (вверху слева) кажется простым линейная связь, что соответствует двум переменные коррелирован, где y можно смоделировать как гауссовский со средним, линейно зависящим от x.
- Второй график (вверху справа) не распространяется нормально; хотя связь между двумя переменными очевидна, она не является линейной, и Коэффициент корреляции Пирсона не актуально. Более общая регрессия и соответствующий коэффициент детерминации было бы более уместно.
- На третьем графике (внизу слева) распределение линейное, но должно иметь другое линия регрессии (а надежная регрессия был бы востребован). Рассчитанная регрессия компенсируется одним выброс что оказывает достаточное влияние, чтобы понизить коэффициент корреляции с 1 до 0,816.
- Наконец, четвертый график (внизу справа) показывает пример, когда один точка с высоким кредитным плечом достаточно для получения высокого коэффициента корреляции, даже если другие точки данных не указывают на какую-либо взаимосвязь между переменными.
Квартет по-прежнему часто используется для иллюстрации важности графического просмотра набора данных перед началом анализа в соответствии с конкретным типом взаимосвязи, а также неадекватности основных статистических свойств для описания реалистичных наборов данных.[2][3][4][5][6]
Наборы данных следующие. В Икс значения одинаковы для первых трех наборов данных.[1]
я | II | III | IV | ||||
---|---|---|---|---|---|---|---|
Икс | у | Икс | у | Икс | у | Икс | у |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Неизвестно, как Анскомб создавал свои наборы данных.[7] С момента публикации было разработано несколько методов для создания похожих наборов данных с идентичной статистикой и несходными графиками.[7][8]
Смотрите также
- Исследовательский анализ данных
- Доброту соответствия
- Проверка регрессии
- Парадокс Симпсона
- Проверка статистической модели
Рекомендации
- ^ а б Анскомб, Ф. Дж. (1973). «Графики в статистическом анализе». Американский статистик. 27 (1): 17–21. Дои:10.1080/00031305.1973.10478966. JSTOR 2682899.
- ^ Элерт, Гленн. "Линейная регрессия". Гипертекст по физике.
- ^ Джанерт, Филипп К. (2010). Анализ данных с помощью инструментов с открытым исходным кодом. O'Reilly Media. стр.65–66. ISBN 0-596-80235-8.
- ^ Чаттерджи, Самприт; Хади, Али С. (2006). Регрессионный анализ на примере. Джон Уайли и сыновья. п. 91. ISBN 0-471-74696-7.
- ^ Сэвилл, Дэвид Дж .; Вуд, Грэм Р. (1991). Статистические методы: геометрический подход. Springer. п. 418. ISBN 0-387-97517-9.
- ^ Тафт, Эдвард Р. (2001). Визуальное отображение количественной информации (2-е изд.). Чешир, Коннектикут: Graphics Press. ISBN 0-9613921-4-2.
- ^ а б Чаттерджи, Сангит; Фират, Айкут (2007). «Создание данных с идентичной статистикой, но с разной графикой: продолжение набора данных Anscombe». Американский статистик. 61 (3): 248–254. Дои:10.1198 / 000313007X220057. JSTOR 27643902.
- ^ Матейка, Джастин; Фитцморис, Джордж (2017). «Та же статистика, разные графики: создание наборов данных с различным внешним видом и идентичными статистическими данными посредством имитации отжига». Материалы конференции CHI по человеческому фактору в вычислительных системах 2017 г.: 1290–1294. Дои:10.1145/3025453.3025912.
внешняя ссылка
- Физический факультет Университета Торонто
- Динамический апплет сделано в GeoGebra отображение данных и статистики, а также возможность перетаскивания точек (Набор 5).
- Анимированные примеры от Autodesk
- Документация для наборов данных в р.