Статистика теста - Test statistic

А статистика теста это статистика (величина, полученная из образец ) используется в статистическая проверка гипотез.[1] Проверка гипотезы обычно определяется в терминах статистики теста, рассматриваемой как числовая сводка набора данных, который сокращает данные до одного значения, которое может использоваться для выполнения проверки гипотезы. Как правило, статистика теста выбирается или определяется таким образом, чтобы в рамках наблюдаемых данных количественно оценить поведение, которое могло бы различать значение NULL от Альтернативная гипотеза, если такая альтернатива предписана, или это характеризует нулевую гипотезу, если нет явно сформулированной альтернативной гипотезы.

Важным свойством тестовой статистики является то, что ее выборочное распределение при нулевой гипотезе должно быть вычислимым, точно или приблизительно, что позволяет п-значения быть рассчитанным. А статистика теста обладает некоторыми из тех же качеств описательная статистика, и многие статистические данные могут использоваться как тестовые, так и описательные статистики. Однако тестовая статистика специально предназначена для использования в статистическом тестировании, в то время как главное качество описательной статистики состоит в том, что ее легко интерпретировать. Некоторая информативная описательная статистика, такая как диапазон выборки, не дают хорошей тестовой статистики, так как трудно определить их выборочное распределение.

Две широко используемые тестовые статистики: t-статистика и F-тест.

Пример

Например, предположим, что задача состоит в том, чтобы проверить, является ли монета честной (т. Е. Имеет ли равные вероятности выпадение головы или хвоста). Если монета подбрасывается 100 раз и результаты записываются, исходные данные могут быть представлены как последовательность из 100 орлов и решек. Если есть интерес к маргинальный вероятность получения головы, только число Т из 100 сальто, в результате которых возник хед, нужно записать. Но Т также может использоваться в качестве тестовой статистики одним из двух способов:

Используя одно из этих распределений выборки, можно вычислить либо односторонний или двусторонний p-значение для нулевой гипотезы о справедливости монеты. Обратите внимание, что статистика теста в этом случае сокращает набор из 100 чисел до единой числовой сводки, которую можно использовать для тестирования.

Общая статистика теста

Одновыборочные тесты уместны, когда образец сравнивается с генеральной совокупностью из гипотезы. Характеристики популяции известны из теории или рассчитываются по совокупности.

Двухвыборочные тесты подходят для сравнения двух образцов, обычно экспериментальных и контрольных образцов из научно контролируемого эксперимента.

Парные тесты подходят для сравнения двух выборок, где невозможно контролировать важные переменные. Вместо того, чтобы сравнивать два набора, элементы объединяются в пары между выборками, так что разница между элементами становится выборкой. Обычно среднее значение разницы затем сравнивается с нулем. Типичный пример сценария, когда тест парных различий уместно, когда к одной группе испытуемых что-то применяется, и тест предназначен для проверки эффекта.

Z-тесты подходят для сравнения средних в строгих условиях относительно нормальности и известного стандартного отклонения.

А т-тест подходит для сравнения средних значений в расслабленных условиях (предполагается меньшее).

Тесты пропорций аналогичны тестам на средства (пропорция 50%).

В тестах хи-квадрат используются одни и те же вычисления и одинаковое распределение вероятностей для разных приложений:

  • Хи-квадрат тесты для дисперсии используются, чтобы определить, имеет ли нормальная совокупность указанная дисперсия. Нулевая гипотеза такова.
  • Критерии независимости хи-квадрат используются для определения того, связаны ли две переменные или являются независимыми. Переменные являются категориальными, а не числовыми. Его можно использовать, чтобы решить, леворукость коррелирует с высотой (или нет). Нулевая гипотеза состоит в том, что переменные независимы. Числа, использованные в расчетах, представляют собой наблюдаемую и ожидаемую частоту появления (от таблицы непредвиденных обстоятельств ).
  • Критерии согласия по критерию хи-квадрат используются для определения соответствия кривых данным. Нулевая гипотеза состоит в том, что аппроксимация кривой адекватна. Обычно форму кривой определяют, чтобы минимизировать среднеквадратичную ошибку, поэтому целесообразно, чтобы расчет согласия суммировал квадраты ошибок.

F-тесты (дисперсионный анализ, ANOVA) обычно используются при принятии решения о том, значимы ли группировки данных по категориям. Если дисперсия результатов тестов левшей в классе намного меньше, чем дисперсия всего класса, то может быть полезно изучить левшей как группу. Нулевая гипотеза состоит в том, что две дисперсии одинаковы, поэтому предлагаемая группировка не имеет смысла.

В таблице ниже используемые символы определены в нижней части таблицы. Многие другие тесты можно найти в другие статьи. Существуют доказательства того, что статистика теста подходит.[2]

ИмяФормулаПредположения или примечания
Один образец z-тест(Нормальное население или п большой) и σ известно.

(z расстояние от среднего по отношению к стандартному отклонению среднего). Для ненормальных распределений можно вычислить минимальную долю популяции, которая попадает в k стандартные отклонения для любых k (видеть: Неравенство Чебышева ).

Z-тест с двумя выборкамиНормальное население и независимые наблюдения и σ1 и σ2 известны
Один образец т-тест

(Нормальное население или п большой) и неизвестный
Парный т-тест

(Нормальная совокупность различий или п большой) и неизвестный
Объединение двух выборок т-тест, равные отклонения


[3]

(Нормальные популяции или п1 + п2 > 40) и независимые наблюдения и σ1 = σ2 неизвестный
Два образца не объединены т-тест, неравные дисперсии (Велча т-тест )

[3]

(Нормальные популяции или п1 + п2 > 40) и независимые наблюдения и σ1 ≠ σ2 оба неизвестны
Однопропорциональный z-тестп .п0 > 10 и п (1 − п0) > 10 и это SRS (Простая случайная выборка), см. Примечания.
Двухпропорциональный z-тест, объединенный для

п1 п1 > 5 и п1(1 − п1) > 5 и п2 п2 > 5 и п2(1 − п2) > 5 и независимые наблюдения, см. Примечания.
Двухпропорциональный z-тест, не объединенный для п1 п1 > 5 и п1(1 − п1) > 5 и п2 п2 > 5 и п2(1 − п2) > 5 и независимые наблюдения, см. Примечания.
Критерий хи-квадрат для дисперсииНормальное население
Критерий соответствия критериям хи-квадратdf = k − 1 − # параметров оценено, и одно из них должно удерживаться.

• Все ожидаемые результаты не менее 5.[4]

• Все ожидаемые значения> 1 и не более 20% ожидаемых значений меньше 5.[5]

Двухвыборочный F-тест на равенство дисперсийНормальные популяции
Устроить так и отклонить H0 за [6]
Регресс т-тест Отклонить ЧАС0 за [7]
* Вычтите 1 для перехвата; k термины содержат независимые переменные.
Обычно нижний индекс 0 указывает значение, взятое из нулевая гипотеза, H0, который следует максимально использовать при построении его тестовой статистики. ... Определения других символов:
  • = выборочная дисперсия
  • = стандартное отклонение образца 1
  • = стандартное отклонение образца 2
  • = t статистика
  • = степени свободы
  • = выборочное среднее различий
  • = гипотетическая разница в среднем популяции
  • = стандартное отклонение разностей
  • = Статистика хи-квадрат
  • = х / п = образец пропорция, если не указано иное
  • = предполагаемая доля населения
  • = пропорция 1
  • = пропорция 2
  • = гипотетическая разница в пропорции
  • = минимум п1 и п2
  • = F статистика

Смотрите также

Рекомендации

  1. ^ Berger, R.L .; Казелла, Г. (2001). Статистические выводы, Duxbury Press, второе издание (стр.374)
  2. ^ Лавленд, Дженнифер Л. (2011). Математическое обоснование вводной проверки гипотез и разработка стандартных образцов (Магистр математики). Университет штата Юта. Получено 30 апреля, 2013. Аннотация: «Основное внимание уделялось подходу Неймана – Пирсона к проверке гипотез. Краткое историческое развитие подхода Неймана – Пирсона сопровождается математическими доказательствами каждой из проверок гипотез, описанных в справочном материале». Доказательства не ссылаются на концепции, введенные Нейманом и Пирсоном, вместо этого они показывают, что традиционная статистика тестов имеет приписанные им распределения вероятностей, так что вычисления значимости, предполагающие эти распределения, являются правильными. Информация о диссертации также размещена на сайте mathnstats.com с апреля 2013 года.
  3. ^ а б Справочник NIST: Два образца т-тест на равные средства
  4. ^ Стил, Р. Г. Д., и Торри, Дж. Х., Принципы и процедуры статистики с особым акцентом на биологические науки., Макгроу Хилл, 1960, стр. 350.
  5. ^ Вайс, Нил А. (1999). Вводная статистика (5-е изд.). стр.802. ISBN  0-201-59877-9.
  6. ^ Справочник NIST: F-тест на равенство двух стандартных отклонений (Тестирование стандартных отклонений аналогично тестированию дисперсий)
  7. ^ Стил, Р. Г. Д., и Торри, Дж. Х., Принципы и процедуры статистики с особым акцентом на биологические науки., Макгроу Хилл, 1960, стр. 288.)