Точный тест Фишера - Fishers exact test

Точный тест Фишера это Статистическая значимость тест, используемый при анализе таблицы непредвиденных обстоятельств.[1][2][3] Хотя на практике он применяется, когда образец размеры небольшие, это действительно для всех размеров выборки. Он назван в честь своего изобретателя, Рональд Фишер, и является одним из класса точные тесты, названный так потому, что значение отклонения от нулевая гипотеза (например., P-значение ) можно рассчитать точно, вместо того, чтобы полагаться на приближение, которое становится точным в пределе, когда размер выборки увеличивается до бесконечности, как во многих статистических тестах.

Говорят, что Фишер разработал тест после комментария Мюриэль Бристоль, которая утверждала, что смогла определить, было ли сначала добавлено в ее чашку чай или молоко. Он проверил ее утверждение в "дама дегустирует чай "эксперимент.[4]

Цель и сфера применения

А заварочный чайник, а сливочник и чашка полный чая с молоко - может ли дегустатор сказать, поступало ли молоко первым?

Тест полезен для категориальные данные которые возникают в результате классификации объектов двумя разными способами; он используется для изучения значимости связи (случайности) между двумя видами классификации. Итак, в исходном примере Фишера одним из критериев классификации может быть то, наливают ли в чашку первым молоко или чай; другой может быть, думает ли Бристоль, что молоко или чай были налиты первыми. Мы хотим знать, связаны ли эти две классификации, то есть действительно ли Бристоль может определить, налили ли сначала молоко или чай. В большинстве случаев использования теста Фишера, как в этом примере, используется таблица непредвиденных обстоятельств 2 × 2. В p-значение из теста вычисляется так, как если бы поля таблицы были фиксированными, т. е. как если бы в примере с дегустацией чая Бристоль знает количество чашек с каждой обработкой (сначала молоко или чай) и, следовательно, дает догадки с правильным числом в каждой категории. Как указал Фишер, при нулевой гипотезе независимости это приводит к гипергеометрическое распределение чисел в ячейках таблицы.

При больших выборках критерий хи-квадрат (или еще лучше, G-тест ) можно использовать в этой ситуации. Однако значение значимости, которое он обеспечивает, является лишь приблизительным, поскольку выборочное распределение вычисляемой тестовой статистики только приблизительно равно теоретическому распределению хи-квадрат. Приближение неадекватно, когда размеры выборки малы или данные очень неравномерно распределены между ячейками таблицы, в результате чего количество ячеек, предсказанное на основании нулевой гипотезы («ожидаемые значения»), оказывается низким. Обычное эмпирическое правило для определения того, является ли приближение хи-квадрат достаточно хорошим, состоит в том, что критерий хи-квадрат не подходит, когда ожидаемые значения в любой из ячеек таблицы непредвиденных обстоятельств ниже 5, или ниже 10, когда есть только один степень свободы (это правило сейчас известно как слишком консервативное[5]). Фактически, для небольших, разреженных или несбалансированных данных точные и асимптотические п-значения могут быть совершенно разными и могут привести к противоположным выводам относительно интересующей гипотезы.[6][7] В отличие от этого, точный тест Фишера, как следует из его названия, является точным до тех пор, пока экспериментальная процедура сохраняет фиксированные итоговые значения строк и столбцов, и поэтому его можно использовать независимо от характеристик выборки. С большими выборками или хорошо сбалансированными таблицами становится трудно производить расчеты, но, к счастью, это именно те условия, при которых подходит критерий хи-квадрат.

Для ручных расчетов проверка возможна только в случае таблицы непредвиденных обстоятельств 2 × 2. Однако принцип теста можно распространить на общий случай м × п стол,[8][9] и немного статистические пакеты предоставить расчет (иногда используя Метод Монте-Карло для получения приближения) для более общего случая.[10]

Пример

Например, выборку подростков можно разделить на мужчин и женщин, с одной стороны, и тех, кто готовится и не готовится в настоящее время к экзамену по статистике, с другой. Мы предполагаем, например, что доля изучающих людей выше среди женщин, чем среди мужчин, и мы хотим проверить, является ли какое-либо различие в пропорциях, которое мы наблюдаем, значительным. Данные могут выглядеть так:

Мужчины ЖенщиныИтого по строке
Изучение1910
Не учусь11314
Итого по столбцу121224

Вопрос, который мы задаем по поводу этих данных: зная, что 10 из этих 24 подростков учатся, а 12 из 24 - женщины, и принимая нулевую гипотезу о том, что мужчины и женщины с равной вероятностью будут учиться, какова вероятность того, что эти 10 подростков подростки, которые учатся, будут так неравномерно распределены между женщинами и мужчинами? Если бы мы выбрали 10 подростков наугад, какова вероятность того, что 9 или более из них окажутся среди 12 женщин и только 1 или меньше среди 12 мужчин?

Прежде чем перейти к тесту Фишера, мы сначала введем некоторые обозначения. Обозначим клетки буквами а, б, в и d, вызовите итоги по строкам и столбцам предельные итоги, а общую сумму представляют как п. Итак, таблица теперь выглядит так:

Мужчины ЖенщиныИтого по строке
Изучениеаба + б
Не учебаcdc + d
Столбец Итогоа + сб + га + б + с + г (= п)

Фишер показал, что вероятность получения любого такого набора значений определяется гипергеометрическое распределение:

куда это биномиальный коэффициент и символ! указывает на факториальный оператор В этом можно убедиться следующим образом. Если предельные суммы (т.е. , , , и ) известны, осталась только одна степень свободы: значение, например, из достаточно, чтобы вывести другие значения. Сейчас же, вероятность того, что элементы положительны при случайном выборе (без замены) элементы из большего набора, содержащего всего элементов, из которых положительны, что и является определением гипергеометрического распределения.

С приведенными выше данными (с использованием первой из эквивалентных форм) это дает:

Приведенная выше формула дает точную гипергеометрическую вероятность наблюдения этого конкретного расположения данных при заданных предельных итоговых значениях на нулевая гипотеза что мужчины и женщины с одинаковой вероятностью будут учиться. Другими словами, если мы предположим, что вероятность того, что мужчина является исследователем, равна , вероятность того, что женщина учится, также , и мы предполагаем, что и мужчины, и женщины входят в нашу выборку независимо от того, являются ли они исследователями, тогда эта гипергеометрическая формула дает условную вероятность наблюдения значений а, б, в, г в четырех ячейках, в зависимости от наблюдаемых маржинальных значений (т. е. при условии, что указаны итоговые значения по строкам и столбцам, показанные на полях таблицы). Это остается верным, даже если мужчины входят в нашу выборку с другой вероятностью, чем женщины. Требование состоит лишь в том, чтобы две классификационные характеристики - пол и студент (или нет) - не были связаны.

Например, предположим, что мы знали вероятности с таким образом, что (мужчина-студент, мужчина, не обучающийся, женщина-студент, женщина, не обучающийся) имели соответствующие вероятности для каждого человека, встреченного в рамках нашей процедуры отбора проб. Тем не менее, если бы мы вычислили распределение элементов ячеек, условно заданных маргиналами, мы получили бы формулу выше, в которой ни ни происходит. Таким образом, мы можем вычислить точную вероятность любого размещения 24 подростков в четырех ячейках таблицы, но Фишер показал, что для получения уровня значимости нам нужно рассматривать только те случаи, когда предельные итоговые значения такие же, как в наблюдаемых таблица, и среди них только те случаи, когда расположение настолько же экстремально, как наблюдаемое расположение, или даже больше. (Тест Барнарда ослабляет это ограничение для одного набора предельных итогов.) В примере имеется 11 таких случаев. Из них только один является более радикальным в том же направлении, что и наши данные; это выглядит так:

Мужчины ЖенщиныИтого по строке
Изучение01010
Не учеба12214
Столбец Итого121224

Для этой таблицы (с крайне неравными пропорциями изучения) вероятность равна.

Чтобы рассчитать значимость наблюдаемых данных, то есть общую вероятность наблюдения данных как экстремальных или более экстремальных, если нулевая гипотеза верно, мы должны вычислить значения п для обеих этих таблиц и сложите их вместе. Это дает односторонний тест, с п приблизительно 0,001346076 + 0,000033652 = 0,001379728. Например, в Среда статистических вычислений R, это значение можно получить как fisher.test (rbind (c (1,9), c (11,3)), alternate = "less") $ p.value. Это значение можно интерпретировать как сумму свидетельств, предоставленных наблюдаемыми данными - или любой другой экстремальной таблицей - для нулевая гипотеза (что нет разницы в пропорциях студентов между мужчинами и женщинами). Чем меньше значение п, тем больше доказательств для отклонения нулевой гипотезы; Итак, здесь есть убедительные доказательства того, что мужчины и женщины не в равной степени занимаются изучением.

Для двусторонний тест мы также должны рассматривать таблицы, которые столь же экстремальны, но в противоположном направлении. К сожалению, классификация таблиц в зависимости от того, являются ли они «экстремальными» или нет, является проблематичной. Подход, используемый fisher.test функционировать в р заключается в вычислении p-значения путем суммирования вероятностей для всех таблиц с вероятностями, меньшими или равными вероятности наблюдаемой таблицы. В приведенном здесь примере двустороннее значение p в два раза больше одностороннего значения, но в целом они могут существенно отличаться для таблиц с небольшими счетчиками, в отличие от случая с тестовой статистикой, которая имеет симметричное распределение выборки.

Как отмечалось выше, самые современные статистические пакеты вычислит значимость критериев Фишера, в некоторых случаях, даже если приближение хи-квадрат также будет приемлемым. Фактические вычисления, выполняемые пакетами статистического программного обеспечения, как правило, будут отличаться от описанных выше, поскольку численные трудности могут возникнуть из-за больших значений факториалов. Простой, несколько лучший вычислительный подход основан на гамма-функция или логарифмическая гамма-функция, но методы точного вычисления гипергеометрических и биномиальных вероятностей остаются активной областью исследований.

Споры

Несмотря на то, что тест Фишера дает точные p-значения, некоторые авторы утверждали, что он консервативен, то есть что его фактический уровень отклонения ниже номинального уровня значимости.[11][12][13] Очевидное противоречие возникает из-за комбинации дискретной статистики с фиксированными уровнями значимости.[14][15] Чтобы быть более точным, рассмотрим следующее предложение для теста значимости на уровне 5%: отклонить нулевую гипотезу для каждой таблицы, которой тест Фишера присваивает значение p, равное или меньшее 5%. Поскольку набор всех таблиц дискретен, может не быть таблицы, для которой достигается равенство. Если является наибольшим p-значением меньше 5%, которое действительно может иметь место для некоторой таблицы, тогда предлагаемый тест эффективно проверяет на -уровень. Для небольших выборок может быть значительно ниже 5%.[11][12][13] Хотя этот эффект имеет место для любой дискретной статистики (не только в таблицах непредвиденных обстоятельств или для теста Фишера), утверждается, что проблема усугубляется тем фактом, что условия теста Фишера на маргинальные.[16] Чтобы избежать этой проблемы, многие авторы не рекомендуют использовать фиксированные уровни значимости при решении дискретных задач.[14][15]

Решение о состоянии на полях таблицы также является спорным.[17][18] Значения p, полученные с помощью теста Фишера, получены из распределения, которое обусловливает итоговую маржу. В этом смысле тест точен только для условного распределения, а не для исходной таблицы, где итоговые значения маржи могут изменяться от эксперимента к эксперименту. Можно получить точное значение p для таблицы 2 × 2, если поля не фиксируются. Тест Барнарда, например, допускает случайные поля. Однако некоторые авторы[14][15][18] (включая, позже, самого Барнарда)[14] раскритиковали тест Барнарда, основанный на этом свойстве. Они утверждают, что общий предельный успех - это (почти[15]) вспомогательная статистика, не содержащий (почти) никакой информации о тестируемом объекте.

Можно показать, что действие обусловливания предельной вероятности успеха из таблицы 2 × 2 игнорирует некоторую информацию в данных о неизвестном отношении шансов.[19] Аргумент, что предельные итоговые значения являются (почти) вспомогательными, подразумевает, что соответствующая функция правдоподобия для того, чтобы делать выводы об этом соотношении шансов, должна зависеть от предельного коэффициента успеха.[19] Важна ли эта утерянная информация для целей вывода - суть спора.[19]

Альтернативы

Альтернативный точный тест, Точный тест Барнарда, был разработан, и сторонники[согласно кому? ] Из этого следует, что этот метод более мощный, особенно в таблицах 2 × 2.[20] Более того, Тест Босхлоо является точным тестом, который по своей конструкции более мощный, чем точный тест Фишера.[21] Другая альтернатива - использовать максимальная вероятность оценки для расчета p-значение из точного биномиальный или же полиномиальный распределения и отклонить или не отклонить на основании p-значение.[нужна цитата ]

Для стратифицированных категориальных данных Тест Кокрана – Мантеля – Хензеля должен использоваться вместо теста Фишера.

Choi et al.[19] предложить p-значение, полученное из теста отношения правдоподобия на основе условного распределения отношение шансов учитывая предельный уровень успеха. Это p-значение логически согласуется с классическими тестами нормально распределенных данных, а также с отношениями правдоподобия и поддерживающими интервалами, основанными на этой функции условного правдоподобия. Это также легко вычислимо.[22]

Смотрите также

Рекомендации

  1. ^ Фишер, Р.А. (1922). «Об интерпретации χ2 из таблиц непредвиденных обстоятельств и расчета P ". Журнал Королевского статистического общества. 85 (1): 87–94. Дои:10.2307/2340521. JSTOR  2340521.
  2. ^ Фишер, Р.А. (1954). Статистические методы для научных работников. Оливер и Бойд. ISBN  0-05-002170-2.
  3. ^ Агрести, Алан (1992). «Обзор точного вывода для таблиц непредвиденных обстоятельств». Статистическая наука. 7 (1): 131–153. CiteSeerX  10.1.1.296.874. Дои:10.1214 / сс / 1177011454. JSTOR  2246001.
  4. ^ Фишер, сэр Рональд А. (1956) [Планирование экспериментов (1935)]. "Математика дамы, дегустирующей чай". В Джеймс Рой Ньюман (ред.). Мир математики, том 3. Courier Dover Publications. ISBN  978-0-486-41151-4.
  5. ^ Ларнц, Кинли (1978). «Сравнения точных уровней для статистики согласия по критерию хи-квадрат». Журнал Американской статистической ассоциации. 73 (362): 253–263. Дои:10.2307/2286650. JSTOR  2286650.
  6. ^ Мехта, Сайрус Р.; Patel, Nitin R; Циатис, Анастасиос А (1984). «Тестирование точной значимости для установления эквивалентности лечения с упорядоченными категориальными данными». Биометрия. 40 (3): 819–825. Дои:10.2307/2530927. JSTOR  2530927. PMID  6518249.
  7. ^ Мехта, К. Р. 1995. SPSS 6.1 Точный тест для Windows. Энглвуд Клиффс, Нью-Джерси: Prentice Hall.
  8. ^ Mehta C.R .; Патель Н. (1983). "Сетевой алгоритм для выполнения точного теста Фишера в р Иксc Таблицы непредвиденных обстоятельств ». Журнал Американской статистической ассоциации. 78 (382): 427–434. Дои:10.2307/2288652. JSTOR  2288652.
  9. ^ mathworld.wolfram.com Пейдж дает формулу для общей формы точного критерия Фишера для м × п таблицы непредвиденных обстоятельств
  10. ^ Сайрус Р. Мехта; Нитин Р. Патель (1986). «АЛГОРИТМ 643: FEXACT: подпрограмма FORTRAN для точного теста Фишера на неупорядоченных таблицах непредвиденных обстоятельств r × c». ACM Trans. Математика. Softw. 12 (2): 154–161. Дои:10.1145/6497.214326.
  11. ^ а б Лидделл, Дуглас (1976). «Практические испытания таблиц непредвиденных обстоятельств 2 × 2». Статистик. 25 (4): 295–304. Дои:10.2307/2988087. JSTOR  2988087.
  12. ^ а б Берксон, Джозеф (1978). «В нарушение точного теста». Журнал статистического планирования и вывода. 2: 27–42. Дои:10.1016/0378-3758(78)90019-8.
  13. ^ а б D'Agostino, R.B .; Чейз В. и Белэнджер А. (1988). «Пригодность некоторых общих процедур для проверки равенства двух независимых биномиальных пропорций». Американский статистик. 42 (3): 198–202. Дои:10.2307/2685002. JSTOR  2685002.
  14. ^ а б c d Йетс, Ф. (1984). «Тесты значимости для таблиц непредвиденных обстоятельств 2 × 2 (с обсуждением)». Журнал Королевского статистического общества, серия A. 147 (3): 426–463. Дои:10.2307/2981577. JSTOR  2981577.
  15. ^ а б c d Литтл, Родерик Дж. А. (1989). «Проверка равенства двух независимых биномиальных пропорций». Американский статистик. 43 (4): 283–288. Дои:10.2307/2685390. JSTOR  2685390.
  16. ^ Mehta, Cyrus R .; Сенчаудхури, Пралай (4 сентября 2003 г.). «Условные и безусловные точные тесты для сравнения двух биномов» (PDF). Получено 20 ноября 2009.
  17. ^ Барнард, Г.А. (1945). «Новый тест для столов 2х2». Природа. 156 (3954): 177. Дои:10.1038 / 156177a0.
  18. ^ а б Фишер (1945). «Новый тест для столов 2 × 2». Природа. 156 (3961): 388. Дои:10.1038 / 156388a0.;Барнард, Г.А. (1945). «Новый тест для столов 2х2». Природа. 156 (3974): 783–784. Дои:10.1038 / 156783b0.
  19. ^ а б c d Чой Л., Блюм Дж. Д., Дюпон В. Д. (2015). «Разъяснение основ статистического вывода с помощью таблиц 2 × 2». PLoS ONE. 10 (4): e0121263. Дои:10.1371 / journal.pone.0121263. ЧВК  4388855. PMID  25849515.
  20. ^ Бергер Р.Л. (1994). «Сравнение мощности точных безусловных тестов для сравнения двух биномиальных пропорций». Институт статистики Mimeo Series No. 2266: 1–19.
  21. ^ Босхлоо Р.Д. (1970). "Повышенный условный уровень значимости для 2Икс2-таблица при проверке равенства двух вероятностей ». Statistica Neerlandica. 24: 1–35. Дои:10.1111 / j.1467-9574.1970.tb00104.x.
  22. ^ Цой, Лина (2011). «ProfileLikelihood: вероятность профиля для параметра в часто используемых статистических моделях; 2011. Пакет R версии 1.1».Смотрите также: Статистика отношения правдоподобия для таблиц 2 x 2 В архиве 4 июня 2016 г. Wayback Machine (Онлайн калькулятор).

внешняя ссылка