Тест Даннетта - Dunnetts test

В статистика, Тест Даннета это множественное сравнение процедура[1] разработан канадским статистиком Чарльз Даннетт[2] для сравнения каждой из нескольких обработок с одним контролем.[3][4] Множественные сравнения с контролем также называются сравнениями «многие к одному».

История

Тест Даннета был разработан в 1955 году;[5] Обновленная таблица критических значений была опубликована в 1964 году.[6]

Проблема множественных сравнений

Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один одновременно рассматривает набор статистических выводов или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок.[7] Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. частота ошибок в семье на или ниже при выполнении множественных сравнений экспериментальной группы с контролем.[7]

Использование теста Даннета

Оригинальная работа по проблеме множественных сравнений была сделана Tukey и Шеффе. Их метод был общим, он рассматривал все виды попарных сравнений.[7] Методы Тьюки и Шеффе позволяют проводить любое количество сравнений среди набора выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к частному случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, делаем сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только сравнения. Если в случае экспериментальной и контрольной групп мы должны были использовать более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы.[5]
Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Другой распространенный метод использования этого метода - агрономы: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки без обработки (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).

Формальное описание теста Даннета

Тест Даннета выполняется путем вычисления T-статистика Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой.[8][9] Поскольку каждое сравнение имеет общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, все t-статистики выводятся из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная статистика теста для теста Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний критерий), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является требуется).

В тесте Даннета мы можем использовать общую таблицу критических значений, но в настоящее время более гибкие параметры доступны во многих статистических пакетах, таких как р. Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.

Предположения

Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты можно обобщить в виде набора вычисленные средние по множествам наблюдений, , пока относятся к лечению и относится к контрольному набору наблюдений, и независимая оценка общего стандартного отклонения всех наборы наблюдений. Все из предполагается, что наборы наблюдений будут независимо и нормально распределены с общим отклонение и означает . Также есть предположение, что есть доступная оценка за .

Расчет

Расчет теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений различия , таким образом, разница между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует, что вероятность всех заявления быть одновременно правильным равно заданному значению,. При расчете одностороннего верхнего (или нижнего) Доверительный интервал для истинного значения разницы между средним значением лечения и контрольная группа, представляет собой вероятность того, что это фактическое значение будет меньше верхнего (или больше нижнего) предела этого интервала. При расчете двустороннего доверительный интервал, представляет собой вероятность того, что истинное значение будет между верхним и нижним пределами.

Во-первых, мы обозначим доступные N наблюдений через когда и и оценить общие отклонение например: когда среднее значение группы и количество наблюдений в группе , и степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий. такая, что вероятность того, что все доверительные интервалы будут содержать соответствующие равно .

Мы будем рассматривать общий случай, когда есть группы лечения и одна контрольная группа. Напишем:

мы также напишем: , который следует за T-статистика Стьюдента распределение с n степени свободы. Нижние доверительные границы с совместным доверительным коэффициентом для эффекты лечения будет выдан:

и константы выбраны так, чтобы . Аналогично, верхние пределы будут определяться:

Для ограничения в обоих направлениях можно взять следующий интервал:

когда выбраны для удовлетворения .Решение этих конкретных значений для двустороннего теста и для одностороннего теста приведено в таблицах.[5] Обновленная таблица критических значений была опубликована в 1964 году.[6]

Примеры

Прочность ткани на разрыв[5]

Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным способом производства.

прочность на разрыв (фунты)
стандартпроцесс 1процесс 2процесс 3
55555550
47644944
48645241
Средства50615245
Дисперсия1927921

Здесь p = 3 и N = 3. Средняя дисперсия составляет , которая представляет собой оценку общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы, которую можно вычислить следующим образом:

.

Стандартное отклонение составляет и расчетная стандартная ошибка разницы между двумя средними значениями равна .

Количество, которое должно быть добавлено и / или вычтено из наблюдаемых различий между средствами, чтобы дать их доверительные границы, было названо Тьюки «допуском» и выражается формулой , где t взят из Многомерное t-распределение, или может быть получено из таблицы Даннета 1, если желательны односторонние ограничения, или из таблицы Даннета 2, если требуются двусторонние ограничения. Для p = 3 и df = 8, t = 2,42 для односторонних ограничений и t = 2,88 для двух- сторонние пределы для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется p = 99% достоверности. Для односторонних пределов допуск составляет A = (2,42) (3,56) = 9, и экспериментатор может сделать вывод, что:

  • Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на
  • Прочность на разрыв при использовании процесса 2 превышает стандарт как минимум на .
  • Прочность на разрыв при использовании процесса 3 превышает стандарт как минимум на .

Совместное заявление, состоящее из трех вышеупомянутых выводов, имеет коэффициент уверенности 95%, т.е. в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех различий. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:

  • Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между

и

  • Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между

и .

  • Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между

и Совместный коэффициент достоверности для этих трех утверждений превышает 95% (из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые значения p немного больше 95 и 99%. При расчетах таблиц 1а и 1б такое приближение не производилось.

Рекомендации

  1. ^ Аптон Г. и Кук И. (2006). Статистический словарь, 2e, Oxford University Press, Оксфорд, Великобритания.
  2. ^ Рамси, Дебора (2009-08-19). Статистика II для чайников. Вайли. п.186. Получено 2012-08-22. тест Даннета, разработанный.
  3. ^ Эверетт Б. С. и Шрондал А. (2010 г.) Кембриджский статистический словарь, 4e, Cambridge University Press, Кембридж, Соединенное Королевство.
  4. ^ «Статистическое программное обеспечение | Информационные технологии Университета Кентукки». Uky.edu. Архивировано из оригинал в 2012-07-31. Получено 2012-08-22.
  5. ^ а б c d Даннетт К. У. (1955). «Процедура множественного сравнения для сравнения нескольких обработок с контролем». Журнал Американской статистической ассоциации. 50: 1096–1121. Дои:10.1080/01621459.1955.10501294.
  6. ^ а б Даннетт К. У. (1964) «Новые таблицы для множественных сравнений с контролем», Биометрия, 20:482–491.
  7. ^ а б c Дэвид К. Хауэлл, "Статистические методы психологии", 8-е изд.
  8. ^ Тест Даннета, HyperStat Online: вводный учебник по статистике и онлайн-руководство для помощи в курсах статистики
  9. ^ Механика различных тестов - Биостатистика BI 345 В архиве 01.06.2010 на Wayback Machine, Колледж Святого Ансельма