Парадокс Симпсонов - Simpsons paradox

Парадокс Симпсона для количественных данных: положительная тенденция ( ,  ) появляется для двух отдельных групп, тогда как отрицательная тенденция ( ) появляется при объединении групп.
Визуализация парадокса Симпсона на данных, напоминающих реальную изменчивость, показывает, что риск неправильной оценки истинных отношений может быть трудно обнаружить

Парадокс Симпсона, который также известен под несколькими другими названиями, является явлением в вероятность и статистика, в котором тренд появляется в нескольких разных группах данных, но исчезает или меняет направление на противоположное при объединении этих групп. Этот результат часто встречается в статистике социальных и медицинских наук.[1][2][3] и это особенно проблематично, когда данные о частотах предоставляются ненадлежащим образом причинный интерпретации.[4] Парадокс может быть разрешен, если причинно-следственные связи должным образом рассмотрены в статистическом моделировании.[4][5] Его также называют Разворот Симпсона, Эффект Юла – Симпсона, парадокс слияния, или же обратный парадокс.[6]

Парадокс Симпсона был использован в качестве примера, чтобы проиллюстрировать неспециалистам или общественности, какие вводящие в заблуждение результаты могут генерировать неверно применяемые статистические данные.[7][8] Мартин Гарднер написал популярный отчет о парадоксе Симпсона в марте 1976 г. Колонка "Математические игры" в Scientific American.[9]

Эдвард Х. Симпсон впервые описал это явление в технической статье в 1951 г.,[10] но статистики Карл Пирсон и др., в 1899 г.,[11] и Удный Йоль, в 1903 г.,[12] уже упоминал о подобных эффектах ранее. Название Парадокс Симпсона был представлен Колином Р. Блитом в 1972 году.[13]

Примеры

Гендерная предвзятость Калифорнийского университета в Беркли

Один из самых известных примеров парадокса Симпсона - исследование гендерных предубеждений среди Высшая школа прием в Калифорнийский университет в Беркли. Данные о приеме на осень 1973 года показали, что мужчины, подавшие заявления, были допущены к участию с большей вероятностью, чем женщины, и разница была настолько велика, что вряд ли была случайностью.[14][15]

ВсеМужчиныЖенщины
ПретендентыДопущенныйПретендентыДопущенныйПретендентыДопущенный
Общий12,76341%844244%432135%

Однако при изучении отдельных отделов выяснилось, что шесть из 85 отделов были значительно предвзяты по отношению к мужчинам, а четыре - по отношению к женщинам. Фактически, объединенные и скорректированные данные показали "небольшую, но статистически значимый предвзятость в пользу женщин ".[15] Данные шести крупнейших отделов перечислены ниже, два верхних отдела по количеству кандидатов для каждого пола выделены курсивом.

отделениеВсеМужчиныЖенщины
ПретендентыДопущенныйПретендентыДопущенныйПретендентыДопущенный
А93364%82562%10882%
B58563%56063%2568%
C91835%32537%59334%
D79234%41733%37535%
E58425%19128%39324%
F7146%3736%3417%

В исследовательской работе Bickel et al.[15] пришел к выводу, что женщины, как правило, подавали заявления на более конкурентоспособные факультеты с низкими показателями приема даже среди квалифицированных кандидатов (например, на факультет английского языка), тогда как мужчины, как правило, подавали заявления в менее конкурентоспособные факультеты с высокими показателями приема среди квалифицированных кандидатов (например, в инженерное дело и химия ).

Лечение камней в почках

Это реальный пример из медицинского исследования.[16] сравнение успешности двух методов лечения камни в почках.[17]

В приведенной ниже таблице показаны показатели успешности и количество процедур лечения как малых, так и крупных камней в почках, где Лечение A включает открытые хирургические процедуры, а Лечение B включает закрытые хирургические процедуры. Цифры в скобках показывают количество успешных случаев по сравнению с общим размером группы.

Уход
Размер камня
Лечение АЛечение B
Маленькие камниГруппа 1
93% (81/87)
Группа 2
87% (234/270)
Большие камниГруппа 3
73% (192/263)
Группа 4
69% (55/80)
Обе78% (273/350)83% (289/350)
Векторное представление, в котором наклон каждого вектора обозначает его успешность

Парадоксальный вывод состоит в том, что лечение А более эффективно при использовании на небольших камнях, а также при использовании на больших камнях, но лечение В более эффективно, если рассматривать оба размера одновременно. В этом примере "скрытая" переменная (или смешивающая переменная ) - это размер камней (представленный тенденцией принятия врачами решения о лечении в пользу B для более мелких камней), который ранее не был известен как важный, пока не были включены его эффекты.

Какое лечение считается лучшим, определяется неравенством между двумя отношениями (количество успехов / общее количество). Обратное неравенство между отношениями, которое создает парадокс Симпсона, происходит потому, что два эффекта происходят вместе:

  1. Размеры групп, которые объединяются при игнорировании скрытой переменной, сильно различаются. Врачи склонны назначать пациентам с большими камнями лучшее лечение А, а случаям с маленькими камнями - худшее лечение Б. Таким образом, в общем случае преобладают группы 3 и 2, а не две гораздо меньшие группы 1 и 4.
  2. Скрытая переменная оказывает большое влияние на отношения; т. е. степень успеха в большей степени зависит от тяжести случая, чем от выбора лечения. Следовательно, группа пациентов с большими камнями, использующая лечение A (группа 3), работает хуже, чем группа с небольшими камнями (группы 1 и 2), даже если последняя использовала худшее лечение B (группа 2).

Основываясь на этих эффектах, можно увидеть парадоксальный результат за счет подавления причинного влияния размера камней на успешное лечение. Парадоксальный результат можно более точно перефразировать следующим образом: когда менее эффективное лечение B применяется чаще к случаям меньшего размера камней, оно может оказаться более эффективным.

Средние показатели

Типичный пример парадокса Симпсона включает средний уровень игроков в профессиональный бейсбол. Один игрок может иметь более высокий средний уровень в год, чем другой игрок, каждый год в течение ряда лет, но иметь более низкий средний уровень за все эти годы. Это явление может происходить при больших различиях в количестве у летучих мышей между годами. Математик Кен Росс[18] продемонстрировал это, используя среднее значение ударов двух бейсболистов, Дерек Джетер и Дэвид Джастис, в 1995 и 1996 годах:[19]

Год
Тесто
19951996Комбинированный
Дерек Джетер12/48.250183/582.314195/630.310
Дэвид Джастис104/411.25345/140.321149/551.270

И в 1995, и в 1996 году у Джастиса был более высокий средний результат (жирным шрифтом), чем у Джетера. Однако, когда два бейсбольных сезона объединены, Джетер показывает более высокий средний уровень, чем Джастис. По словам Росса, это явление будет наблюдаться примерно раз в год среди возможных пар игроков.

Расовое неравенство в смертной казни

Этот пример из реальной жизни взят из исследования Майкла Раделет в 1981 году.[20] Данные взяты из двадцати округов Флориды за 1976-1977 гг.

Ответчик
Жертва
белыйЧернитьОбе
белый13% (19/151)17% (11/63)14% (30/214)
Чернить0% (0/9)6% (6/103)5% (6/112)
Обе12% (19/160)10% (17/166)

Если объединить потерпевших, белые обвиняемые с большей вероятностью будут приговорены к смертной казни, поскольку они были приговорены к смертной казни в 19 из 160 «неосновных» дел об убийствах (дела об убийствах, в которых обвиняемый и жертва являются незнакомыми людьми), 13%, в то время как Обвиняемые афроамериканцы были приговорены к смертной казни в 17 случаях из 166, то есть в 10%.[20] Однако при разбивке по расе жертвы оказывается, что обвиняемые афроамериканцы с большей вероятностью будут приговорены к смертной казни, если жертва белая, а жертва - афроамериканец, что на первый взгляд предполагает, что повышенная вероятность быть приговоренной к смертной казни, когда жертва белая, а тот факт, что обвиняемые в таких случаях, скорее всего, будут белыми, имеет тенденцию маскировать влияние расы обвиняемого.[20] (Примечательно, что Раделет обнаружил, что ни одна из вышеупомянутых корреляций не была статистически значимой, вместо этого предполагая, что данные были в первую очередь вызваны повышенной вероятностью обвинения в убийстве первой степени, связанного с белыми жертвами.[20])

Векторная интерпретация

Векторная интерпретация парадокса Симпсона

Парадокс Симпсона также можно проиллюстрировать с помощью двумерного векторное пространство.[21] Уровень успеха (т.е. успехи / попытки) может быть представлена вектор , с склон из . Чем круче вектор, тем выше вероятность успеха. Если две ставки и объединяются, как в приведенных выше примерах, результат может быть представлен суммой векторов и , что согласно правило параллелограмма это вектор , с уклоном .

Парадокс Симпсона гласит, что даже если вектор (на рисунке оранжевым) имеет меньший наклон, чем другой вектор (синим цветом) и имеет меньший наклон, чем , сумма двух векторов потенциально может иметь больший наклон, чем сумма двух векторов , как показано в примере. Чтобы это произошло, один из оранжевых векторов должен иметь больший наклон, чем один из синих векторов (здесь & ), и они, как правило, длиннее, чем векторы с альтернативными индексами, что доминирует в общем сравнении.

Корреляция между переменными

Парадокс Симпсона может возникнуть и в корреляции, в котором две переменные, как представляется, имеют (скажем) положительную корреляцию по отношению друг к другу, тогда как на самом деле они имеют отрицательную корреляцию, причем разворот был вызван «скрывающимся» вмешивающимся фактором. Berman et al.[22] приведите пример из экономики, где набор данных предполагает, что общий спрос положительно коррелирует с ценой (то есть более высокие цены приводят к более спрос), вопреки ожиданиям. Анализ показывает, что время является смешивающей переменной: построение графика цены и спроса в зависимости от времени показывает ожидаемую отрицательную корреляцию за различные периоды, которая затем меняется на положительную, если влияние времени игнорируется путем простого построения графика зависимости спроса от цены.

Последствия для принятия решений

Практическое значение парадокса Симпсона проявляется в ситуациях принятия решений, где он ставит следующую дилемму: с какими данными мы должны обращаться при выборе действия, агрегированных или разделенных? В приведенном выше примере почечных камней ясно, что если кому-то поставлен диагноз «мелкие камни» или «большие камни», следует обращаться к данным для соответствующей субпопуляции, и лечение А будет предпочтительнее лечения Б. Но что, если пациент не диагностирован, и размер камня не известен; Было бы целесообразно ознакомиться с агрегированными данными и назначить лечение B? Это противоречило бы здравому смыслу; лечение, которое является предпочтительным как при одном условии, так и при его отрицании, также должно быть предпочтительным, когда состояние неизвестно.

С другой стороны, если предпочтительны разделенные данные априори, что мешает разделить данные на произвольные подкатегории (скажем, на основе цвета глаз или боли после лечения), искусственно созданных, чтобы дать неправильный выбор лечения? Жемчужина[4] показывает, что действительно во многих случаях именно агрегированные, а не секционированные данные дают правильный выбор действия. Что еще хуже, учитывая одну и ту же таблицу, иногда следует следить за секционированными, а иногда и за агрегированными данными, в зависимости от истории, лежащей в основе данных, причем каждая история диктует свой выбор. Жемчужина[4] считает, что это настоящий парадокс переворота Симпсона.

Что касается того, почему и как история, а не данные, должна диктовать выбор, ответ заключается в том, что именно история кодирует причинно-следственные связи между переменными. После того, как мы объясним эти отношения и представим их формально, мы сможем проверить, какой раздел дает правильное предпочтение лечения. Например, если мы представляем причинно-следственные связи в виде графика, называемого «причинно-следственная диаграмма» (см. Байесовские сети ), мы можем проверить, перехватывают ли узлы, представляющие предлагаемое разделение, ложные пути на диаграмме. Этот тест, называемый «критерием черного хода», сводит парадокс Симпсона к упражнению в теории графов.[23]

Психология

Психологический интерес к парадоксу Симпсона пытается объяснить, почему люди сначала считают изменение знака невозможным, оскорбленные идеей о том, что действие, предпочтительное как при одном условии, так и при его отрицании, должно быть отклонено, когда условие неизвестно. Вопрос в том, где люди становятся такими сильными интуиция из, и как это закодировано в разум.

Парадокс Симпсона показывает, что эту интуицию нельзя вывести ни из одного классическая логика или же исчисление вероятностей в одиночку, и таким образом привели философы предположить, что он поддерживается врожденной причинной логикой, которая помогает людям рассуждать о действиях и их последствиях[нужна цитата ]. Savage's принцип верности[13] это пример того, что может повлечь за собой такая логика. Квалифицированная версия принципа уверенности Сэвиджа действительно может быть получена из теории Перла. делать-исчисление[4] и гласит: "Действие А что увеличивает вероятность события B в каждой субпопуляции Cя из C должен также увеличить вероятность B в популяции в целом при условии, что действие не меняет распределение субпопуляций ». Это предполагает, что знания о действиях и последствиях хранятся в форме, напоминающей Причинные Байесовские сети.

Вероятность

В статье Павлидеса и Перлмана представлено доказательство Хаджикостаса, что в случайной таблице 2 × 2 × 2 с равномерным распределением парадокс Симпсона будет иметь место с вероятность точно 1/60.[24] Исследование Кока предполагает, что вероятность того, что парадокс Симпсона возникнет случайным образом в моделях траекторий (то есть в моделях, созданных анализ пути ) с двумя предикторами и одной критериальной переменной составляет примерно 12,8 процента; немного выше, чем 1 вхождение на 8 моделей путей.[25]

Второй парадокс Симпсона

«Второй», менее известный парадокс Симпсона обсуждался в его статье 1951 года. Это может произойти, когда рациональную интерпретацию не нужно искать в отдельной таблице, а вместо этого можно найти в объединенной таблице. Какую форму данных следует использовать, зависит от фона и процесса, в результате которого эти данные возникли.

Нортон и Дивайн приводят гипотетический пример второго парадокса.[26]

Смотрите также

Рекомендации

  1. ^ Клиффорд Х. Вагнер (февраль 1982 г.). «Парадокс Симпсона в реальной жизни». Американский статистик. 36 (1): 46–48. Дои:10.2307/2684093. JSTOR  2684093.
  2. ^ Холт, Г. Б. (2016). Возможный парадокс Симпсона в многоцентровом исследовании интраперитонеальной химиотерапии рака яичников. Журнал клинической онкологии, 34 (9), 1016-1016.
  3. ^ Франк, Александр; Airoldi, Эдоардо; Славов, Николай (2017). «Посттранскрипционная регуляция в тканях человека». PLOS вычислительная биология. 13 (5): e1005535. arXiv:1506.00219. Дои:10.1371 / journal.pcbi.1005535. ISSN  1553-7358. ЧВК  5440056. PMID  28481885.
  4. ^ а б c d е Жемчужина Иудеи. Причинность: модели, рассуждения и умозаключения, Cambridge University Press (2000, 2-е издание, 2009 г.). ISBN  0-521-77362-8.
  5. ^ Кок, Н., и Гаскинс, Л. (2016). Парадокс Симпсона, умеренность и появление квадратичных отношений в моделях путей: иллюстрация информационных систем. Международный журнал прикладной нелинейной науки, 2 (3), 200-234.
  6. ^ И. Дж. Хорошо, Ю. Миттал (июнь 1987 г.). «Объединение и геометрия двух таблиц непредвиденных обстоятельств». Анналы статистики. 15 (2): 694–711. Дои:10.1214 / aos / 1176350369. ISSN  0090-5364. JSTOR  2241334.
  7. ^ Роберт Л. Уордроп (февраль 1995 г.). «Парадокс Симпсона и горячая рука в баскетболе». Американский статистик, 49 (1): С. 24–28.
  8. ^ Алан Агрести (2002). «Категориальный анализ данных» (второе издание). Джон Уайли и сыновья ISBN  0-471-36093-7
  9. ^ Садовник, Мартин (март 1979). «МАТЕМАТИЧЕСКИЕ ИГРЫ: на ткани индуктивной логики и некоторых вероятностных парадоксах» (PDF). Scientific American. 234 (3): 119. Дои:10.1038 / scientificamerican0376-119. Получено 28 февраля 2017.
  10. ^ Симпсон, Эдвард Х. (1951). «Интерпретация взаимодействия в таблицах непредвиденных обстоятельств». Журнал Королевского статистического общества, серия B. 13: 238–241.
  11. ^ Пирсон, Карл; Ли, Алиса; Брэмли-Мур, Лесли (1899). «Генетический (репродуктивный) отбор: наследование плодовитости у человека и плодовитости породистых скаковых лошадей». Философские труды Королевского общества A. 192: 257–330. Дои:10.1098 / rsta.1899.0006.
  12. ^ Г. У. Юл (1903). «Заметки по теории ассоциации атрибутов в статистике». Биометрика. 2 (2): 121–134. Дои:10.1093 / biomet / 2.2.121.
  13. ^ а б Колин Р. Блит (июнь 1972 г.). «О парадоксе Симпсона и принципе верности». Журнал Американской статистической ассоциации. 67 (338): 364–366. Дои:10.2307/2284382. JSTOR  2284382.
  14. ^ Дэвид Фридман, Роберт Пизани и Роджер Первес (2007), Статистика (4-е издание), В. В. Нортон. ISBN  0-393-92972-8.
  15. ^ а б c П.Дж. Бикель, Е.А. Хаммел и Дж. О'Коннелл (1975). "Сексуальные предубеждения при поступлении в аспирантуру: данные из Беркли" (PDF). Наука. 187 (4175): 398–404. Дои:10.1126 / science.187.4175.398. PMID  17835295.
  16. ^ К. Р. Чариг; Д. Р. Уэбб; С. Р. Пейн; Дж. Э. Уикхэм (29 марта 1986 г.). «Сравнение лечения почечных камней с помощью открытой хирургии, чрескожной нефролитотомии и экстракорпоральной ударно-волновой литотрипсии». Br Med J (Clin Res Ed). 292 (6524): 879–882. Дои:10.1136 / bmj.292.6524.879. ЧВК  1339981. PMID  3083922.
  17. ^ Стивен А. Джулиус; Марк А. Мулли (3 декабря 1994 г.). «Заблуждение и парадокс Симпсона». BMJ. 309 (6967): 1480–1481. Дои:10.1136 / bmj.309.6967.1480. ЧВК  2541623. PMID  7804052.
  18. ^ Кен Росс. "Математик на стадионе Ballpark: шансы и вероятности для фанатов бейсбола (мягкая обложка)"Пи Пресс, 2004. ISBN  0-13-147990-3. 12–13
  19. ^ Статистика доступна с Baseball-Reference.com: Данные для Дерека Джетера; Данные для Дэвида Джастиса.
  20. ^ а б c d Майкл Раделет (1981). «Расовые особенности и применение смертной казни». Американский социологический обзор. 46 (6): 918–927.
  21. ^ Коцик Ежи (2001). «Доказательства без слов: парадокс Симпсона» (PDF). Математический журнал. 74 (5): 399. Дои:10.2307/2691038. JSTOR  2691038.
  22. ^ Берман, С. ДаллМул, Л. Грин, М., Лакер, Дж. (2012) "Парадокс Симпсона: предостережение в продвинутой аналитике ", Значимость.
  23. ^ Перл, Иудея (декабрь 2013 г.). «Понимание парадокса Симпсона» (PDF). Лаборатория когнитивных систем Калифорнийского университета в Лос-Анджелесе, технический отчет R-414.
  24. ^ Мариос Г. Павлидес и Майкл Д. Перлман (август 2009 г.). "Насколько вероятен парадокс Симпсона?". Американский статистик. 63 (3): 226–233. Дои:10.1198 / вкус.2009.09007.
  25. ^ Кок, Н. (2015). Насколько вероятен парадокс Симпсона в моделях путей? Международный журнал электронного сотрудничества, 11 (1), 1–7.
  26. ^ Нортон, Х. Джеймс; Божественное, Джордж (август 2015). «Парадокс Симпсона ... и как его избежать». Значимость. 12 (4): 40–43. Дои:10.1111 / j.1740-9713.2015.00844.x.

Библиография

  • Лейла Шнепс и Корали Колмез, Математика под судом. Как числа используются и злоупотребляют в зале суда, Основные книги, 2013. ISBN  978-0-465-03292-1. (Шестая глава: «Математическая ошибка номер 6: парадокс Симпсона. Случай предубеждения по признаку пола в Беркли: обнаружение дискриминации»).

внешняя ссылка