Уровень ошибок в семье - Family-wise error rate

В статистика, частота ошибок в семье (FWER) это вероятность сделать одно или несколько ложных открытий, или ошибки типа I при выполнении проверка нескольких гипотез.

История

Tukey ввел термины экспериментальная частота ошибок и "коэффициент ошибок на эксперимент" чтобы указать частоту ошибок, которую исследователь может использовать в качестве контрольного уровня в эксперименте с множеством гипотез.[нужна цитата ]

Фон

В рамках статистики существует несколько определений термина "семья":

  • Хохберг и Тамане определили «семью» в 1987 году как «любую совокупность выводов, для которой имеет смысл принять во внимание некоторую комбинированную меру ошибки».[1]
  • Согласно Коксу в 1982 году, совокупность выводов следует рассматривать как семью:[нужна цитата ]
  1. Чтобы учесть эффект отбора за счет дноуглубительные работы
  2. Обеспечить одновременную правильность ряда выводов, чтобы гарантировать правильное общее решение

Подводя итог, можно сказать, что семью лучше всего можно определить с помощью потенциального выборочного вывода, с которым приходится сталкиваться: семья - это наименьший набор элементов вывода в анализе, взаимозаменяемых в отношении их значения для цели исследования, из которого выбираются результаты для действий , презентация или выделение может быть сделано (Йоав Бенджамини ).[нужна цитата ]

Классификация нескольких тестов гипотез

В следующей таблице определены возможные результаты при проверке нескольких нулевых гипотез. Предположим, у нас есть число м нулевых гипотез, обозначаемых: ЧАС1ЧАС2, ..., ЧАСм.Используя статистический тест, мы отклоняем нулевую гипотезу, если тест объявлен значимым. Мы не отклоняем нулевую гипотезу, если тест несущественен. Суммируя каждый тип результата по всем ЧАСя дает следующие случайные величины:

Нулевая гипотеза верна (H0)Альтернативная гипотеза верна (HА)Общий
Тест объявлен значимымVSр
Тест объявлен несущественнымUТ
Общийм

В м гипотезы проверки которых верны нулевые гипотезы, р - наблюдаемая случайная величина, а S, Т, U, и V ненаблюдаемы случайные переменные.

Определение

FWER - это вероятность сделать хотя бы один ошибка типа I в семье,

или эквивалентно,

Таким образом, заверив , вероятность сделать один или несколько ошибки типа I в семье контролируется на уровне .

Процедура контролирует FWER в слабом смысле если регулятор FWER на уровне гарантировано Только когда все нулевые гипотезы верны (т.е. когда , что означает, что «глобальная нулевая гипотеза» верна).[2]

Процедура контролирует FWER в сильном смысле если регулятор FWER на уровне гарантировано для любой конфигурация истинных и ложных нулевых гипотез (независимо от того, верна ли глобальная нулевая гипотеза).[3]

Контрольные процедуры

Некоторые классические решения, обеспечивающие высокий уровень FWER control, и существуют некоторые новые решения.

Процедура Бонферрони

  • Обозначим через то п-значение для тестирования
  • отклонять если

Процедура Шидака

  • Проверка каждой гипотезы на уровне это процедура множественного тестирования Сидака.
  • Эта процедура более эффективна, чем у Бонферрони, но выигрыш невелик.
  • Эта процедура может не контролировать FWER, если тесты имеют отрицательную зависимость.

Процедура Тьюки

  • Процедура Тьюки применима только для попарные сравнения.
  • Он предполагает независимость тестируемых наблюдений, а также равную вариацию между наблюдениями (гомоскедастичность ).
  • Процедура вычисляет для каждой пары стьюдентизированный диапазон статистика: куда является большим из двух сравниваемых средств, меньше, и стандартная ошибка рассматриваемых данных.[нужна цитата ]
  • Тест Тьюки по сути T-тест Стьюдента, за исключением того, что он исправляет уровень ошибок в семье.[нужна цитата ]

Процедура понижения Холма (1979)

  • Начните с заказа п-значения (от наименьшего к наибольшему) и пусть связанные гипотезы будут
  • Позволять - минимальный индекс такой, что
  • Отвергнуть нулевые гипотезы . Если тогда ни одна из гипотез не отвергается.[нужна цитата ]

Эта процедура неизменно более эффективна, чем процедура Бонферрони.[4] Причина, по которой эта процедура контролирует частоту ошибок на уровне семьи для всех m гипотез на уровне α в строгом смысле, заключается в том, что это закрытая процедура тестирования. Таким образом, каждое пересечение проверяется с помощью простого теста Бонферрони.[нужна цитата ]

Повышающая процедура Хохберга

Процедура повышения Хохберга (1988 г.) выполняется с использованием следующих шагов:[5]

  • Начните с заказа п-значения (от наименьшего к наибольшему) и пусть связанные гипотезы будут
  • Для данного , позволять быть самым большим такой, что
  • Отвергнуть нулевые гипотезы

Процедура Хохберга более действенна, чем процедура Холмса. Тем не менее, в то время как Holm’s является закрытой процедурой тестирования (и, таким образом, как Bonferroni, не имеет ограничений на совместное распределение тестовой статистики), Hochberg's основан на тесте Саймса, поэтому он работает только при неотрицательной зависимости.[нужна цитата ]

Исправление Даннета

Чарльз Даннетт (1955, 1966) описал альтернативную корректировку альфа-ошибки, когда k группы сравнивают с той же контрольной группой. Теперь известный как тест Даннета, этот метод менее консервативен, чем корректировка Бонферрони.[нужна цитата ]

Метод Шеффе

Процедуры повторной выборки

Процедуры Бонферрони и Холма управляют FWER при любой структуре зависимости п-значения (или, что то же самое, статистика отдельных тестов). По сути, это достигается за счет приспособления к структуре зависимости "наихудшего случая" (которая близка к независимости для большинства практических целей). Но такой подход является консервативным, если зависимость действительно положительная. В качестве крайнего примера, при абсолютной положительной зависимости фактически существует только один тест, и, следовательно, FWER не накачан.

Учет структуры зависимости п-values ​​(или отдельной тестовой статистики) производит более мощные процедуры. Это может быть достигнуто путем применения методов повторной выборки, таких как методы начальной загрузки и перестановки. Процедура Вестфолла и Янга (1993) требует определенного условия, которое не всегда выполняется на практике (а именно, поворотности подмножества).[6] Процедуры Романо и Вольфа (2005a, b) обходятся без этого условия и, таким образом, более применимы.[7][8]

Гармоническое среднее п-значение процедуры

Гармоническое среднее п-значение (HMP) процедура[9][10] предоставляет многоуровневый тест, который улучшает мощность коррекции Бонферрони, оценивая значимость группы гипотез, контролируя при этом частоту серьезных семейных ошибок. Значение любого подмножества из тесты оцениваются путем расчета HMP для подмножества,

куда веса, сумма которых равна единице (т. е. ). Приблизительная процедура, которая контролирует частоту серьезных семейных ошибок на уровне приблизительно отвергает нулевую гипотезу о том, что ни один из п-значения в подмножестве имеют значение, когда (куда ). Это приближение разумно для малых (например. ) и становится произвольно хорошим как приближается к нулю. Также доступен асимптотически точный тест (см. основная статья ).

Альтернативные подходы

Контроль FWER обеспечивает более строгий контроль над ложным обнаружением по сравнению с процедурами ложного обнаружения (FDR). Управление FWER ограничивает вероятность хотя бы один ложное открытие, тогда как контроль FDR ограничивает (в широком смысле) ожидаемую долю ложных открытий. Таким образом, процедуры FDR имеют больше мощность за счет повышения ставок тип I ошибки, т. е. отклонение нулевых гипотез, которые действительно верны.[11]

С другой стороны, контроль FWER менее строг, чем контроль частоты ошибок для каждого семейства, что ограничивает ожидаемое количество ошибок на семейство. Поскольку управление FWER связано с хотя бы один ложное открытие, в отличие от контроля частоты ошибок для каждой семьи, он не рассматривает несколько одновременных ложных открытий как нечто худшее, чем одно ложное открытие. В Коррекция Бонферрони часто рассматривается как просто управление FWER, но на самом деле также контролирует частоту ошибок в семействе.[12]

Рекомендации

  1. ^ Hochberg, Y .; Тамане, А. С. (1987). Множественные процедуры сравнения. Нью-Йорк: Вили. п.5. ISBN  978-0-471-82222-6.
  2. ^ Дмитриенко, Алексей; Тамхане, Аджит; Бретц, Франк (2009). Множественные проблемы тестирования в фармацевтической статистике (1-е изд.). CRC Press. п. 37. ISBN  9781584889847.
  3. ^ Дмитриенко, Алексей; Тамхане, Аджит; Бретц, Франк (2009). Множественные проблемы тестирования в фармацевтической статистике (1-е изд.). CRC Press. п. 37. ISBN  9781584889847.
  4. ^ Aickin, M; Генслер, Х (1996). «Корректировка для множественного тестирования при сообщении результатов исследования: методы Бонферрони и Холма». Американский журнал общественного здравоохранения. 86 (5): 726–728. Дои:10.2105 / ajph.86.5.726. ЧВК  1380484. PMID  8629727.
  5. ^ Хохберг, Йосеф (1988). «Более точная процедура Бонферрони для множественных тестов значимости» (PDF). Биометрика. 75 (4): 800–802. Дои:10.1093 / biomet / 75.4.800.
  6. ^ Westfall, P.H .; Янг, С. С. (1993). Множественное тестирование на основе повторной выборки: примеры и методы корректировки p-значения. Нью-Йорк: Джон Вили. ISBN  978-0-471-55761-6.
  7. ^ Romano, J.P .; Вольф, М. (2005a). «Точный и приближенный пошаговые методы проверки множественных гипотез». Журнал Американской статистической ассоциации. 100 (469): 94–108. Дои:10.1198/016214504000000539. HDL:10230/576.
  8. ^ Romano, J.P .; Вольф, М. (2005b). «Пошаговое множественное тестирование как формализованное отслеживание данных». Econometrica. 73 (4): 1237–1282. CiteSeerX  10.1.1.198.2473. Дои:10.1111 / j.1468-0262.2005.00615.x.
  9. ^ Хорошо, И. Дж (1958). «Параллельные и последовательные испытания значимости». Журнал Американской статистической ассоциации. 53 (284): 799–813. Дои:10.1080/01621459.1958.10501480. JSTOR  2281953.
  10. ^ Уилсон, Д. Дж. (2019). "Среднее гармоническое п-значение для объединения зависимых тестов ». Труды Национальной академии наук США. 116 (4): 1195–1200. Дои:10.1073 / pnas.1814092116. ЧВК  6347718. PMID  30610179.
  11. ^ Шаффер, Дж. П. (1995). «Проверка множественных гипотез». Ежегодный обзор психологии. 46: 561–584. Дои:10.1146 / annurev.ps.46.020195.003021. HDL:10338.dmlcz / 142950.
  12. ^ Фран, Эндрю (2015). «Уместны ли показатели ошибок типа I на уровне семьи в социальных и поведенческих науках?». Журнал современных прикладных статистических методов. 14 (1): 12–23. Дои:10.22237 / jmasm / 1430453040.

внешняя ссылка