Метод Фишера - Fishers method

По методу Фишера два малых p-значения п1 и п2 объединить, чтобы сформировать меньшее p-значение. Желто-зеленая граница определяет область, в которой значение p для мета-анализа ниже 0,05. Например, если оба p-значения составляют около 0,10, или если одно около 0,04, а другое около 0,25, p-значение мета-анализа составляет около 0,05.

В статистика, Метод Фишера,[1][2] также известный как Комбинированный вероятностный тест Фишера, это техника для слияние данных или же "метаанализ "(анализ анализов). Он был разработан и назван в честь Рональд Фишер. В своей основной форме он используется для объединения результатов нескольких независимый тесты опираясь на тот же общий гипотеза (ЧАС0).

Приложение к независимой тестовой статистике

Метод Фишера сочетает в себе исключительную ценность вероятности из каждого теста, обычно известного как "p-значения ", в один статистика теста (Икс2) по формуле

куда пя p-значение для яth проверка гипотез. Когда p-значения имеют тенденцию быть маленькими, статистика теста Икс2 будет большим, что говорит о том, что нулевые гипотезы верны не для всех тестов.

Когда все нулевые гипотезы верны, а пя (или их соответствующие тестовые статистики) независимы, Икс2 имеет распределение хи-квадрат с 2k степени свободы, куда k это количество тесты объединяются. Этот факт можно использовать для определения p-значение за Икс2.

Распределение Икс2 это распределение хи-квадрат по следующей причине; при нулевой гипотезе для проверки я, p-значение пя следует за равномерное распределение на отрезке [0,1]. Отрицательный натуральный логарифм равномерно распределенного значения следует за экспоненциальное распределение. Масштабирование значения, которое следует экспоненциальному распределению в два раза, дает величину, которая следует за распределение хи-квадрат с двумя степенями свободы. Наконец, сумма k Независимые значения хи-квадрат, каждое с двумя степенями свободы, следует распределению хи-квадрат с 2k степени свободы.

Ограничения предположения о независимости

Зависимость между статистическими тестами обычно[нечеткий ] положительный, что означает, что p-значение Икс2 слишком мало (антиконсервативно), если не учитывать зависимость. Таким образом, если метод Фишера для независимых тестов применяется в зависимых условиях, а значение p недостаточно мало, чтобы отвергнуть нулевую гипотезу, то этот вывод будет оставаться в силе, даже если зависимость не будет должным образом учтена. Однако, если положительная зависимость не учтена и p-значение метаанализа оказывается небольшим, свидетельства против нулевой гипотезы обычно преувеличиваются. В средний уровень ложного обнаружения, , уменьшено для k независимых или положительно коррелированных тестов может быть достаточно для контроля альфа для полезного сравнения со сверхмалым p-значением из ФишераИкс2.

Расширение статистики зависимых тестов

В случаях, когда тесты не являются независимыми, нулевое распределение Икс2 сложнее. Обычная стратегия - аппроксимировать нулевое распределение с помощью масштабированного χ2-распределение случайная переменная. Могут использоваться разные подходы в зависимости от того, известна ли ковариация между различными p-значениями.

Метод Брауна [3] может использоваться для комбинирования зависимых p-значений, базовая статистика теста которых имеет многомерное нормальное распределение с известной ковариационной матрицей. Коста [4] расширяет матрицу Брауна, позволяя комбинировать p-значения, когда ковариационная матрица известна только с точностью до скалярного мультипликативного множителя.

В гармоническое среднее п-ценить предлагает альтернативу методу Фишера для комбинирования п-значения, когда структура зависимостей неизвестна, но тесты нельзя считать независимыми.[5][6]

Интерпретация

Метод Фишера обычно применяется к сбору статистических данных независимых тестов, обычно из отдельных исследований, имеющих одну и ту же нулевую гипотезу. Нулевая гипотеза мета-анализа состоит в том, что все отдельные нулевые гипотезы верны. Альтернативная гипотеза метаанализа состоит в том, что по крайней мере одна из отдельных альтернатива гипотезы верны.

В некоторых условиях имеет смысл рассмотреть возможность «неоднородности», когда нулевая гипотеза верна в одних исследованиях, но не в других, или когда разные альтернативные гипотезы могут иметь место в разных исследованиях. Распространенной причиной последней формы неоднородности является то, что размеры эффекта могут отличаться в разных популяциях. Например, рассмотрим коллекцию медицинских исследований, изучающих риск диеты с высоким содержанием глюкозы для развития типа II. сахарный диабет. Из-за генетических факторов или факторов окружающей среды реальный риск, связанный с данным уровнем потребления глюкозы, может быть выше в некоторых популяциях людей, чем в других.

В других условиях альтернативная гипотеза либо универсально ложна, либо универсально верна - нет возможности, что она будет выполняться в одних условиях, но не в других. Например, рассмотрим несколько экспериментов, предназначенных для проверки определенного физического закона. Любые расхождения между результатами отдельных исследований или экспериментов должны быть случайными, возможно, вызванными различиями в мощность.

В случае метаанализа с использованием двусторонних тестов можно отклонить нулевую гипотезу метаанализа, даже если отдельные исследования показывают сильные эффекты в разных направлениях. В этом случае мы отвергаем гипотезу о том, что нулевая гипотеза верна в каждом исследовании, но это не означает, что существует единообразная альтернативная гипотеза, которая сохраняется во всех исследованиях. Таким образом, двусторонний метаанализ особенно чувствителен к неоднородности альтернативных гипотез. Односторонний мета-анализ может обнаружить неоднородность в величинах эффекта, но фокусируется на одном, заранее заданном направлении эффекта.

Связь с методом Z-оценки Стоуффера

Связь между методом Фишера и методом Стоуфера можно понять из отношения между z и −log (п)

Тесно связанный с методом Фишера подход - Z Stouffer's, основанный на Z-баллах, а не на p-значениях, что позволяет включать веса исследования. Назван в честь социолога. Сэмюэл А. Стоуфер.[7] Если мы позволим Zя  =  Φ − 1(1−пя), куда Φ стандартный нормальный кумулятивная функция распределения, тогда

Z-оценка для общего метаанализа. Эта Z-оценка подходит для односторонних правосторонних p-значений; незначительные изменения могут быть внесены, если анализируются двусторонние или левосторонние p-значения. В частности, если анализируются двусторонние p-значения, двустороннее p-значение (pя/ 2) или 1-pя если используются левосторонние p-значения.[8][ненадежный источник? ]

Поскольку метод Фишера основан на среднем значении −log (пя) значений, а метод Z-оценки основан на среднем значении Zя ценности, взаимосвязь между этими двумя подходами следует из взаимосвязи между z и −log (п) = −log (1−Φ(z)). Для нормального распределения эти два значения не совсем линейно связаны, но они следуют очень линейной зависимости в диапазоне наиболее часто наблюдаемых Z-значений, от 1 до 5. В результате мощность метода Z-оценки равна почти идентична силе метода Фишера.

Одним из преимуществ подхода Z-score является простота введения весов.[9][10]Если яth Z-оценка взвешивается шя, то Z-оценка метаанализа равна

которое следует стандартному нормальному распределению при нулевой гипотезе. В то время как взвешенные версии статистики Фишера могут быть получены, нулевое распределение становится взвешенной суммой независимых статистик хи-квадрат, с которой менее удобно работать.

Рекомендации

  1. ^ Фишер, Р.А. (1925). Статистические методы для научных работников. Оливер и Бойд (Эдинбург). ISBN  0-05-002170-2.
  2. ^ Fisher, R.A .; Фишер, Р. А (1948). «Вопросы и ответы №14». Американский статистик. 2 (5): 30–31. Дои:10.2307/2681650. JSTOR  2681650.
  3. ^ Браун, М. (1975). «Метод объединения независимых односторонних тестов значимости». Биометрия. 31 (4): 987–992. Дои:10.2307/2529826.
  4. ^ Kost, J .; Макдермотт, М. (2002). «Объединение зависимых P-значений». Письма о статистике и вероятности. 60 (2): 183–190. Дои:10.1016 / S0167-7152 (02) 00310-3.
  5. ^ Хорошо, И. Дж (1958). «Параллельные и последовательные испытания значимости». Журнал Американской статистической ассоциации. 53 (284): 799–813. Дои:10.1080/01621459.1958.10501480. JSTOR  2281953.
  6. ^ Уилсон, Д. Дж. (2019). "Среднее гармоническое п-значение для объединения зависимых тестов ». Труды Национальной академии наук США. 116 (4): 1195–1200. Дои:10.1073 / pnas.1814092116. ЧВК  6347718.
  7. ^ Stouffer, S.A .; Сучман, E.A .; DeVinney, L.C .; Star, S.A .; Уильямс, Р. Младший (1949). Американский солдат, Том 1: Приспособление во время армейской жизни. Издательство Принстонского университета, Принстон.
  8. ^ «Проверка двусторонних p-значений с использованием подхода Стоуфера». stats.stackexchange.com. Получено 2015-09-14.
  9. ^ Мостеллер, Ф .; Буш, Р. Р. (1954). «Избранные количественные методы». В Линдзей, Г. (ред.). Справочник по социальной психологии, Том 1. Addison_Wesley, Кембридж, Массачусетс, стр. 289–334.
  10. ^ Липтак, Т. (1958). «О комбинации независимых тестов». Мадьяр Туд. Акад. Мат. Kutato Int. Козл. 3: 171–197.

Смотрите также