Статистическая проверка гипотез - Statistical hypothesis testing

А статистическая гипотеза это гипотеза это можно проверить на основе наблюдаемый данные смоделированный как реализованные ценности, принятые совокупностью случайные переменные.[1] Набор данных моделируется как реализованные значения набора случайных величин, имеющих совместное распределение вероятностей в некотором наборе возможных совместных распределений. Проверяемая гипотеза - это именно тот набор возможных распределений вероятностей. А проверка статистической гипотезы это метод статистические выводы. An Альтернативная гипотеза предлагается для вероятностного распределения данных либо явно, либо только неформально. Считается, что сравнение двух моделей статистически значимый если в соответствии с пороговой вероятностью - уровнем значимости - данные вряд ли попали в нулевая гипотеза. Проверка гипотезы определяет, какие результаты исследования могут привести к отклонению нулевой гипотезы на заранее заданном уровне значимости, при этом используется заранее выбранная мера отклонения от этой гипотезы (тестовая статистика или критерий согласия. мера). Заранее выбранный уровень значимости - это максимально допустимая «частота ложных срабатываний». Кто-то хочет контролировать риск ошибочного отклонения истинной нулевой гипотезы.

Процесс различения нулевой гипотезы и Альтернативная гипотеза помогает рассмотрение двух концептуальных типов ошибок. Ошибка первого типа возникает, когда нулевая гипотеза ошибочно отвергается. Второй тип ошибки возникает, когда нулевая гипотеза ошибочно не отклоняется. (Эти два типа известны как ошибки типа 1 и типа 2.)

Проверка гипотез, основанная на статистической значимости, - еще один способ выразить доверительные интервалы (точнее, наборы уверенности). Другими словами, каждая проверка гипотезы, основанная на значимости, может быть получена с помощью доверительного интервала, а каждый доверительный интервал может быть получен с помощью проверки гипотезы на основе значимости.[2]

Проверка гипотез на основе значимости является наиболее распространенной структурой для проверки статистических гипотез. Альтернативная структура для проверки статистических гипотез состоит в том, чтобы указать набор статистические модели, по одному для каждой гипотезы кандидата, а затем используйте выбор модели техники для выбора наиболее подходящей модели.[3] Наиболее распространенные методы отбора основаны либо на Информационный критерий Акаике или же Фактор Байеса. Однако на самом деле это не «альтернативная структура», хотя ее можно назвать более сложной. Это ситуация, в которой хочется различать множество возможных гипотез, а не только две. В качестве альтернативы его можно рассматривать как гибрид между тестированием и оценкой, где один из параметров является дискретным и указывает, какая из иерархии все более и более сложных моделей является правильной.

  • Проверка значимости нулевой гипотезы * - это название версии проверки гипотез без явного упоминания возможных альтернатив и без особого учета частоты ошибок. Ее отстаивал Рональд Фишер в контексте, в котором он преуменьшал значение любого явного выбора альтернативной гипотезы и, следовательно, не обращал внимания на силу теста. Кто-то просто выдвигает нулевую гипотезу как своего рода соломинку или, что более любезно, как формализацию стандартного, установочного, стандартного представления о том, как обстоят дела. Один попытался опровергнуть это общепринятое мнение, показав, что он приводит к выводу, что произошло нечто крайне маловероятное, тем самым дискредитируя теорию.

Процесс тестирования

В статистической литературе основополагающую роль играет проверка статистических гипотез.[4] Можно использовать два математически эквивалентных процесса.[5]

Обычно рассуждают следующим образом:

  1. Существует первоначальная исследовательская гипотеза, истина которой неизвестна.
  2. Первый шаг - указать соответствующие ноль и альтернативные гипотезы. Это важно, так как неверное изложение гипотез запутает остальную часть процесса.
  3. Второй шаг - рассмотреть статистические допущения делается об образце при проведении теста; например, предположения о статистическая независимость или о форме распределения наблюдений. Это не менее важно, поскольку неверные предположения будут означать, что результаты теста недействительны.
  4. Решите, какой тест подходит, и укажите соответствующий статистика теста Т.
  5. Получите распределение тестовой статистики при нулевой гипотезе из предположений. В стандартных случаях это будет хорошо известный результат. Например, статистика теста может следовать Распределение Стьюдента с известными степенями свободы, или нормальное распределение с известным средним и дисперсией. Если распределение тестовой статистики полностью фиксируется нулевой гипотезой, мы называем гипотезу простой, иначе она называется составной.
  6. Выберите уровень значимости (α), порог вероятности, ниже которого нулевая гипотеза будет отклонена. Общие значения - 5% и 1%.
  7. Распределение тестовой статистики при нулевой гипотезе делит возможные значения Т в те, для которых отвергается нулевая гипотеза - так называемые критическая область - и те, для которых это не так. Вероятность критической области равна α. В случае составной нулевой гипотезы максимальная вероятность критической области равна α.
  8. Вычислить на основе наблюдений наблюдаемое значение тНаблюдения статистики теста Т.
  9. Решите либо отклонить нулевую гипотезу в пользу альтернативы, либо не отклонять ее. Правило принятия решения - отклонить нулевую гипотезу. ЧАС0 если наблюдаемое значение тНаблюдения находится в критической области, и в противном случае принять или «не отвергнуть» гипотезу.

Общая альтернативная формулировка этого процесса выглядит следующим образом:

  1. Вычислить на основе наблюдений наблюдаемое значение тНаблюдения статистики теста Т.
  2. Рассчитайте п-ценить. Это вероятность при нулевой гипотезе выборки тестовой статистики, по крайней мере, столь же экстремальной, как наблюдаемая (максимальная вероятность того события, если гипотеза составная).
  3. Отвергните нулевую гипотезу в пользу альтернативной гипотезы тогда и только тогда, когда п-значение меньше (или равно) уровня значимости (выбранной вероятности) порога ().

Первый процесс был выгоден в прошлом, когда были доступны только таблицы тестовой статистики с общими порогами вероятности. Это позволяло принимать решение без вычисления вероятности. Его было достаточно для работы в классе и для оперативного использования, но было недостаточно для отчета о результатах. Последний процесс опирался на обширные таблицы или вычислительную поддержку, которая не всегда доступна. Явный расчет вероятности полезен для отчетности. Теперь вычисления легко выполняются с помощью соответствующего программного обеспечения.

Разница в двух процессах, примененных к примеру с радиоактивным чемоданом (ниже):

  • «Показание счетчика Гейгера - 10. Предел - 9. Проверьте чемодан».
  • «Показания счетчика Гейгера высокие; 97% безопасных чемоданов имеют более низкие показания. Предел составляет 95%. Проверьте чемодан».

Первый отчет адекватен, второй дает более подробное объяснение данных и причин, по которым чемодан проверяется.

Разница между принятием нулевой гипотезы и просто неспособностью ее отклонить важна. Терминология «не удалось отвергнуть» подчеркивает тот факт, что несущественный результат не дает возможности определить, какая из двух гипотез верна, поэтому все, что можно сделать, это то, что нулевая гипотеза не была отклонена. Фраза «принять нулевую гипотезу» может означать, что она доказана просто потому, что не была опровергнута. заблуждение известный как аргумент от незнания. Если только тест с особенно высоким мощность используется идея «принятия» нулевой гипотезы, вероятно, неверна. Тем не менее терминология преобладает в статистике, где фактически подразумеваемое значение хорошо понимается.

Описанные здесь процессы идеально подходят для вычислений. Они серьезно пренебрегают дизайн экспериментов соображения.[6][7]

Особенно важно оценить соответствующие размеры выборки перед проведением эксперимента.

Фраза «критерий значимости» была придумана статистиками. Рональд Фишер.[8]

Интерпретация

В п-значение - это вероятность того, что данный результат (или более значимый результат) будет иметь место при нулевой гипотезе (или, в случае составного нуля, это наибольшая такая вероятность; см. главу 10 книги «Вся статистика: краткая информация»). Курс статистического вывода », Springer; 1-е исправленное издание, 20-е издание, 17 сентября 2004 г .; Ларри Вассерман). Например, предположим, что честная монета проверяется на честность (нулевая гипотеза). При уровне значимости 0,05 ожидается, что честная монета (ошибочно) отвергнет нулевую гипотезу примерно в 1 из 20 тестов. В п-значение не обеспечивает вероятность того, что какая-либо гипотеза верна (общий источник путаницы).[9]

Если п-значение меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста находится в критической области), то мы говорим, что нулевая гипотеза отклоняется на выбранном уровне значимости. Отказ от нулевой гипотезы - это вывод. Это похоже на обвинительный приговор в уголовном процессе: доказательств достаточно, чтобы отрицать невиновность, тем самым доказывая вину. Мы могли бы принять альтернативную гипотезу (и гипотезу исследования).

Если п-значение нет меньше выбранного порога значимости (эквивалентно, если наблюдаемая статистика теста выходит за пределы критической области), то доказательства недостаточны для подтверждения вывода. (Это похоже на вердикт "невиновен".) Исследователь обычно уделяет особое внимание тем случаям, когда п-значение близко к уровню значимости.

Некоторым людям полезно думать о системе проверки гипотез как о аналоге математической доказательство от противного.[10]

В примере «Леди дегустация чая» (ниже) Фишер потребовал, чтобы Леди должным образом классифицировала все чашки чая, чтобы обосновать вывод о том, что результат маловероятен. Его тест показал, что если женщина эффективно гадала наугад (нулевая гипотеза), была 1,4% вероятность того, что наблюдаемые результаты (идеально заказанный чай) будут иметь место.

Действительно ли отклонение нулевой гипотезы оправдывает принятие исследовательской гипотезы, зависит от структуры гипотез. Отказ от гипотезы о том, что большой отпечаток лапы произошел от медведя, не сразу доказывает существование Большая ступня. При проверке гипотез делается упор на отказе, который основан на вероятности, а не на принятии, что требует дополнительных логических шагов.

"Вероятность отклонения нулевой гипотезы зависит от пяти факторов: одно- или двустороннего теста, уровня значимости, стандартного отклонения, величины отклонения от нулевой гипотезы и количества наблюдений. "[11] Эти факторы вызывают критику; Факторы, находящиеся под контролем экспериментатора / аналитика, придают результатам видимость субъективности.

Использование и важность

Статистика помогает анализировать большинство наборов данных. Это в равной степени верно и для проверки гипотез, которая может оправдать выводы, даже если научной теории не существует. В примере с чаем «Леди дегустация» было «очевидно» отсутствие разницы между (наливание молока в чай) и (наливание чая в молоко). Данные противоречили «очевидному».

Реальные приложения проверки гипотез включают:[12]

  • Проверка того, страдают ли от кошмаров больше мужчин, чем женщин
  • Установление авторства документов
  • Оценка влияния полнолуния на поведение
  • Определение дальности, на которой летучая мышь может обнаружить насекомое по эхо
  • Как решить, приводит ли больничное ковровое покрытие к увеличению числа инфекций
  • Выбор лучших способов бросить курить
  • Проверка того, отражают ли наклейки на бампере поведение автовладельца
  • Проверка утверждений аналитиков почерка

Статистическая проверка гипотез играет важную роль во всей статистике и в статистические выводы. Например, Леманн (1992) в обзоре фундаментальной статьи Неймана и Пирсона (1933) говорит: «Тем не менее, несмотря на свои недостатки, новая парадигма, сформулированная в статье 1933 года, и многие разработки, осуществленные в ее рамках, продолжают оставаться в силе. играют центральную роль как в теории, так и в практике статистики, и можно ожидать, что они сделают это в обозримом будущем ".

Тестирование значимости было предпочтительным статистическим инструментом в некоторых экспериментальных социальных науках (более 90% статей в Журнал прикладной психологии в начале 1990-х годов).[13] В других областях предпочтение отдается оценке параметров (например, размер эффекта ). Проверка значимости используется в качестве замены традиционного сравнения прогнозируемого значения и экспериментального результата в основе научный метод. Когда теория способна только предсказать знак взаимосвязи, направленный (односторонний) тест гипотез можно настроить так, чтобы только статистически значимый результат поддерживал теорию. Эта форма оценки теории является наиболее критикуемым применением проверки гипотез.

Предостережения

«Если бы правительство потребовало, чтобы статистические процедуры наносили предупредительные надписи, как на наркотиках, большинство методов вывода действительно имели бы длинные этикетки».[14] Это предостережение относится к проверкам гипотез и их альтернативам.

Успешная проверка гипотезы связана с вероятностью и частотой ошибок первого типа. Вывод мог бы быть неправым.

Заключение теста настолько же надежно, насколько и образец, на котором он основан. Дизайн эксперимента имеет решающее значение. Наблюдался ряд неожиданных эффектов, в том числе:

  • В умный эффект Ганса. Оказалось, что лошадь способна выполнять простую арифметику.
  • В Эффект хоторна. Промышленные рабочие были более производительны при лучшем освещении и наиболее производительны при худшем.
  • В эффект плацебо. Таблетки без медицинских активных ингредиентов были чрезвычайно эффективными.

Статистический анализ вводящих в заблуждение данных приводит к неверным выводам. Вопрос качества данных может быть более тонким. В прогнозирование например, нет согласия относительно меры точности прогнозов. При отсутствии согласованного измерения ни одно решение, основанное на измерениях, не будет бесспорным.

Книга Как лгать со статистикой[15][16] это самая популярная из когда-либо изданных книг по статистике.[17] В нем не особо много внимания уделяется проверке гипотез, но его предостережения применимы, в том числе: Многие утверждения делаются на основе слишком малых выборок, чтобы их можно было убедить. Если в отчете не упоминается размер выборки, сомневайтесь.

Проверка гипотез действует как фильтр статистических выводов; публикуются только те результаты, которые соответствуют порогу вероятности. Экономика также действует как фильтр публикаций; Для публикации могут быть представлены только результаты, благоприятные для автора и источника финансирования. Влияние фильтрации на публикацию называется предвзятость публикации. Связанная проблема заключается в том, что множественное тестирование (иногда связано с сбор данных ), в котором к одному набору данных применяются различные тесты для различных возможных эффектов, и сообщаются только те, которые дали значительный результат. Они часто решаются с помощью процедур коррекции множественности, которые контролируют частота ошибок в семье (FWER) или коэффициент ложного обнаружения (FDR).

Те, кто принимает важные решения на основе результатов проверки гипотез, благоразумно обращают внимание на детали, а не только на выводы. В физических науках большинство результатов полностью принимаются только при независимом подтверждении. Общий совет относительно статистики: «Цифры никогда не лгут, но фигура лжецы» (анонимно).

Примеры

Соотношение полов человека

Самое раннее использование статистической проверки гипотез обычно связано с вопросом о равной вероятности рождения мужского и женского пола (нулевая гипотеза), который рассматривался в 1700-х гг. Джон Арбетнот (1710),[18] а позже Пьер-Симон Лаплас (1770-е).[19]

Арбутнот изучил записи о рождении в Лондоне за каждый из 82 лет с 1629 по 1710 год и применил знаковый тест, простой непараметрический тест.[20][21][22] Ежегодно количество мужчин, рожденных в Лондоне, превышало количество женщин. Если рассматривать большее количество родов мужского или женского пола как равновероятное, вероятность наблюдаемого результата составляет 0,5.82, или примерно 1 из 4,8360,0000,0000,0000,0000,0000; говоря современным языком, это п-ценить. Арбутнот пришел к выводу, что это слишком мало, чтобы быть результатом случая, а должно быть результатом божественного провидения: «Отсюда следует, что правит искусство, а не случайность». Говоря современным языком, он отверг нулевую гипотезу о равновероятности родов мужского и женского пола на п = 1/282 уровень значимости.

Лаплас считал статистику почти полумиллиона рождений. Статистика показала превышение количества мальчиков над девочками.[23][24] Он пришел к выводу, вычислив п-значение того, что превышение было реальным, но необъяснимым эффектом.[25]

Леди дегустация чая

В известном примере проверки гипотез, известном как Леди дегустация чая,[26] Доктор Мюриэль Бристоль, женщина-коллега Фишера утверждала, что смогла определить, был ли сначала добавлен чай или молоко в чашку. Фишер предложил подать ей восемь чашек, по четыре каждого сорта, в случайном порядке. Тогда можно было бы спросить, какова вероятность того, что она получит правильное число, но просто случайно. Нулевая гипотеза заключалась в том, что Леди не имела такой способности. Статистика теста представляла собой простой подсчет количества успехов в выборе 4 чашек. Критическая область была единственным случаем 4 успехов из 4 возможных на основании общепринятого критерия вероятности (<5%). Модель из 4 успехов соответствует 1 из 70 возможных комбинаций (p ≈ 1,4%). Фишер утверждал, что никакой альтернативной гипотезы (никогда) не требовалось. Дама правильно определила каждую чашку,[27] что считалось бы статистически значимым результатом.

Судебный процесс

Процедура статистической проверки сравнима с криминальной испытание; подсудимый считается невиновным до тех пор, пока его вина не доказана. Прокурор пытается доказать вину подсудимого. Только когда имеется достаточно доказательств для обвинения, обвиняемый признается виновным.

В начале процедуры есть две гипотезы : «подсудимый невиновен», и : «подсудимый виновен». Первый, , называется нулевая гипотеза, и в настоящее время принимается. Второй, , называется Альтернативная гипотеза. Это альтернативная гипотеза, которую мы надеемся поддержать.

Гипотеза о невиновности отвергается только в том случае, если ошибка маловероятна, потому что никто не хочет осуждать невиновного обвиняемого. Такая ошибка называется ошибка первого рода (то есть осуждение невиновного человека), и появление этой ошибки контролируется, чтобы быть редким. Как следствие этого асимметричного поведения ошибка второго рода (оправдание лица, совершившего преступление), встречается чаще.

ЧАС0 правда
Действительно не виновен
ЧАС1 правда
Действительно виноват
Принять нулевую гипотезу
Оправдательный приговор
Верное решениеНеправильное решение
Ошибка типа II
Отклонить нулевую гипотезу
Убеждение
Неправильное решение
Ошибка типа I
Верное решение

Уголовный процесс можно рассматривать как один или оба из двух процессов принятия решения: виновен против невиновности или доказательства против порога («вне разумного сомнения»). С одной точки зрения, подсудимого судят; с другой точки зрения, оценивается исполнение обвинения (которое несет бремя доказывания). Проверка гипотезы может рассматриваться либо как оценка гипотезы, либо как оценка доказательств.

Философские бобы

Следующий пример был приведен философом, описывающим поколения научных методов до того, как проверка гипотез была формализована и популяризирована.[28]

Некоторые бобы из этой горсти белые.
Большинство бобов в этом пакете белые.
Следовательно: Вероятно, эти бобы были взяты из другого мешка.
Это гипотетический вывод.

Фасоль в мешке - это население. Горстка образцов. Нулевая гипотеза состоит в том, что выборка произошла от совокупности. Критерием отклонения нулевой гипотезы является «очевидная» разница во внешнем виде (неформальная разница в среднем). Интересный результат заключается в том, что рассмотрение реальной популяции и реальной выборки привело к созданию воображаемого мешка. Философ рассматривал логику, а не вероятность. Чтобы быть реальной статистической проверкой гипотезы, этот пример требует формальности вычисления вероятности и сравнения этой вероятности со стандартом.

Простое обобщение примера рассматривает смешанный пакет с фасолью и горсть, которые содержат либо очень мало, либо очень много белой фасоли. Обобщение рассматривает обе крайности. Чтобы прийти к формальному ответу, требуется больше вычислений и больше сравнений, но основная философия остается неизменной; Если состав горсти сильно отличается от состава мешка, то, вероятно, образец взят из другого мешка. Исходный пример называется односторонним или односторонним тестом, тогда как обобщение называется двусторонним или двусторонним тестом.

Заявление также основывается на предположении, что выборка была случайной. Если бы кто-то рылся в сумке в поисках белой фасоли, это объяснило бы, почему в пригоршне было так много белой фасоли, а также объяснило бы, почему количество белой фасоли в мешке было исчерпано (хотя мешок, вероятно, предполагается намного больше, чем рука).

Ясновидящая карточная игра

Человек (испытуемый) проверяется на ясновидение. Им 25 раз показывают обратную сторону случайно выбранной игральной карты и спрашивают, какая из четырех костюмы это принадлежит. Количество совпадений или правильных ответов называется Икс.

Когда мы пытаемся найти доказательства их ясновидения, на данный момент нулевая гипотеза состоит в том, что этот человек не является ясновидящим.[29] Альтернатива такова: человек (более или менее) ясновидящий.

Если нулевая гипотеза верна, единственное, что может сделать тестируемый, - это предположить. Для каждой карты вероятность (относительная частота) появления любой одной масти равна 1/4. Если альтернатива верна, испытуемый правильно предсказывает масть с вероятностью более 1/4. Назовем вероятность правильного угадывания п. Итак, гипотезы таковы:

  • нулевая гипотеза (просто догадываюсь)

и

  • Альтернативная гипотеза (истинный ясновидящий).

Когда испытуемый правильно предсказывает все 25 карт, мы будем считать их ясновидящими и отвергнем нулевую гипотезу. Таким образом, также с 24 или 23 попаданиями. С другой стороны, с 5 или 6 попаданиями нет причин считать их таковыми. Но как насчет 12 или 17 попаданий? Какое критическое число, c, хитов, в какой момент мы считаем испытуемого ясновидящим? Как определить критическое значение c? С выбором c= 25 (т.е. мы принимаем ясновидение только тогда, когда все карты предсказаны правильно) мы более критичны, чем с c= 10. В первом случае почти никто из испытуемых не будет признан ясновидящим, во втором - определенное количество пройдут проверку. На практике каждый решает, насколько он будет критичным. То есть каждый решает, как часто принимать ошибку первого рода - ложный положительный результат, или ошибка типа I. С c = 25 вероятность такой ошибки составляет:

а значит, очень маленький. Вероятность ложного срабатывания - это вероятность случайного угадывания всех 25 раз.

Менее критичный, с c= 10, дает:

(где C (25, k) - биномиальный коэффициент 25 выбора k). Таким образом, c = 10 дает гораздо большую вероятность ложного срабатывания.

Перед фактическим проведением теста максимально допустимая вероятность ошибки типа I (α) определен. Обычно выбираются значения в диапазоне от 1% до 5%. (Если максимально допустимая частота ошибок равна нулю, требуется бесконечное количество правильных предположений.) В зависимости от этой частоты ошибок типа 1 критическое значение c рассчитывается. Например, если мы выберем коэффициент ошибок 1%, c рассчитывается так:

Из всех чисел c с этим свойством мы выбираем наименьшее, чтобы минимизировать вероятность ошибки типа II, a ложноотрицательный. В приведенном выше примере мы выбираем: .

Радиоактивный чемодан

В качестве примера рассмотрите возможность определения наличия в чемодане радиоактивных материалов. Помещен под счетчик Гейгера, он производит 10 отсчетов в минуту. Нулевая гипотеза состоит в том, что в чемодане нет радиоактивного материала и что все измеренные количества связаны с окружающей радиоактивностью, типичной для окружающего воздуха и безвредных объектов. Затем мы можем вычислить, насколько вероятно, что мы будем наблюдать 10 отсчетов в минуту, если бы нулевая гипотеза была верна. Если нулевая гипотеза предсказывает (скажем) в среднем 9 отсчетов в минуту, то согласно распределение Пуассона типично для радиоактивный распад вероятность записи 10 или более отсчетов составляет около 41%. Таким образом, мы можем сказать, что чемодан совместим с нулевой гипотезой (это не гарантирует отсутствия радиоактивного материала, просто у нас недостаточно доказательств, чтобы предположить, что он есть). С другой стороны, если нулевая гипотеза предсказывает 3 отсчета в минуту (для которых распределение Пуассона предсказывает только 0,1% вероятность записи 10 или более отсчетов), то чемодан несовместим с нулевой гипотезой, и, вероятно, есть другие факторы, ответственные за произвести измерения.

Тест не подтверждает прямо наличие радиоактивного материала. А успешный test утверждает, что утверждение об отсутствии радиоактивного материала маловероятно при чтении (и, следовательно, ...). Двойное отрицание (опровержение нулевой гипотезы) метода сбивает с толку, но использование контрпримера для опровержения является стандартной математической практикой. Привлекательность метода - его практичность. Мы знаем (по опыту) ожидаемый диапазон отсчетов при наличии только радиоактивности окружающей среды, поэтому мы можем сказать, что измерение необычно большой. Статистика просто формализует интуитивное, используя числа вместо прилагательных. Мы, вероятно, не знаем характеристик радиоактивных чемоданов; Мы просто предполагаем, что они дают большие показания.

Чтобы немного формализовать интуицию: подозревается радиоактивность, если счет Гейгера с чемоданом входит в число или превышает наибольшее (5% или 1%) из счетчиков Гейгера, сделанных только с окружающей радиацией. Это не делает никаких предположений относительно распределения подсчетов. Для получения хороших оценок вероятности редких событий требуется множество наблюдений за излучением окружающей среды.

Описанный здесь тест более полно является тестом статистической значимости нулевой гипотезы. Нулевая гипотеза представляет собой то, во что мы бы поверили по умолчанию, прежде чем увидим какие-либо доказательства. Статистическая значимость возможный результат теста, объявленный при соблюдении образец вряд ли произошло бы случайно, если бы нулевая гипотеза была верна. Название теста описывает его формулировку и возможный результат. Одной из характеристик теста является четкое решение: отвергать или не отвергать нулевую гипотезу. Вычисленное значение сравнивается с порогом, который определяется на основе допустимого риска ошибки.

Определение терминов

Следующие определения в основном основаны на изложении в книге Леманна и Романо:[4]

Статистическая гипотеза
Заявление о параметрах, описывающих совокупность (не выборку).
Статистика
Значение, рассчитанное на основе образца без каких-либо неизвестных параметров, часто используется для обобщения образца в целях сравнения.
Простая гипотеза
Любая гипотеза, полностью определяющая распределение населения.
Составная гипотеза
Любая гипотеза, которая нет полностью указать распределение населения.
Нулевая гипотеза (ЧАС0)
Гипотеза, связанная с противоречием теории, которую нужно доказать.
Положительные данные
Данные, позволяющие исследователю отклонить нулевую гипотезу.
Альтернативная гипотеза (ЧАС1)
Гипотеза (часто составная), связанная с теорией, которую нужно доказать.
Статистический тест
Процедура, входные данные которой являются выборками, а результат - гипотезой.
Регион приема
Набор значений тестовой статистики, для которых мы не можем отклонить нулевую гипотезу.
Регион отторжения / Критический регион
Набор значений тестовой статистики, для которых отклоняется нулевая гипотеза.
Критическое значение
Пороговое значение, ограничивающее области принятия и отклонения для тестовой статистики.
Сила теста (1 − β)
Вероятность правильного отклонения нулевой гипотезы, когда альтернативная гипотеза верна. Дополнение ложноотрицательный ставка, β. Мощность называется чувствительность в биостатистика. («Это чувствительный тест. Поскольку результат отрицательный, мы можем с уверенностью сказать, что у пациента нет этого состояния».) чувствительность и специфичность и Ошибки типа I и типа II для исчерпывающих определений.
Размер
Для простых гипотез это вероятность того, что неправильно отвергая нулевую гипотезу. В ложный положительный результат ставка. Для составных гипотез это верхняя грань вероятности отклонения нулевой гипотезы по всем случаям, охватываемым нулевой гипотезой. Дополнение к ложному положительному результату называется специфичность в биостатистика. («Это особый тест. Поскольку результат положительный, мы можем с уверенностью сказать, что у пациента есть заболевание».) См. чувствительность и специфичность и Ошибки типа I и типа II для исчерпывающих определений.
Уровень значимости теста (α)
Это верхняя граница размера теста. Его значение выбирает статистик перед просмотром данных или выбором какого-либо конкретного теста для использования. Это максимальная подверженность ошибочному отклонению H0 он / она готов принять. Тестирование H0 на уровне значимости α означает тестирование H0 с тестом, размер которого не превышает α. В большинстве случаев используются тесты, размер которых равен уровню значимости.
п-ценить
Вероятность, если предположить, что нулевая гипотеза верна, получить результат, по крайней мере, такой же экстремальный, как статистика теста. В случае составной нулевой гипотезы - вероятность наихудшего случая.
Статистическая значимость тест
Предшественник проверки статистических гипотез (см. Раздел «Происхождение»). Экспериментальный результат считался статистически значимым, если образец был достаточно несовместим с (нулевой) гипотезой. Это по-разному считалось здравым смыслом, прагматической эвристикой для выявления значимых экспериментальных результатов, соглашением, устанавливающим порог статистических данных, или методом вывода выводов из данных. Проверка статистической гипотезы добавила математической строгости и философской согласованности концепции, сделав альтернативную гипотезу явной. Этот термин широко используется для современной версии, которая сейчас является частью статистической проверки гипотез.
Консервативный тест
Тест является консервативным, если при построении для данного номинального уровня значимости истинная вероятность неправильно отклонение нулевой гипотезы никогда не превышает номинальный уровень.
Точный тест
Тест, в котором уровень значимости или критическое значение могут быть вычислены точно, то есть без каких-либо приближений. В некоторых контекстах этот термин ограничивается тестами, применяемыми к категориальные данные и чтобы перестановочные тесты, в котором вычисления производятся путем полного перечисления всех возможных исходов и их вероятностей.

Тест статистической гипотезы сравнивает статистику теста (z или же т например) до порога. Статистика теста (формула, приведенная в таблице ниже) основана на оптимальности. Для фиксированного уровня частоты ошибок типа I использование этой статистики сводит к минимуму количество ошибок типа II (что эквивалентно максимизации мощности). Следующие термины описывают тесты с точки зрения такой оптимальности:

Самый мощный тест
Для данного размер или же уровень значимости, тест с наибольшей мощностью (вероятностью отклонения) для данного значения проверяемого параметра (ов), содержащегося в альтернативной гипотезе.
Единообразно самый мощный тест (UMP)
Испытание с наибольшим мощность для всех значений проверяемого параметра (ов), содержащихся в альтернативной гипотезе.

Общая статистика теста

Варианты и подклассы

Статистическая проверка гипотез - ключевой метод обоих частотный вывод и Байесовский вывод, хотя два типа вывода имеют заметные различия. Статистические проверки гипотез определяют процедуру, которая контролирует (исправляет) вероятность ошибочного решение что позиция по умолчанию (нулевая гипотеза ) это неверно. Процедура основана на том, насколько вероятно возникновение набора наблюдений, если бы нулевая гипотеза была верной. Обратите внимание, что вероятность принятия неправильного решения равна нет вероятность того, что нулевая гипотеза верна, или верна ли какая-либо конкретная альтернативная гипотеза. Это контрастирует с другими возможными методами теория принятия решений в котором нуль и Альтернативная гипотеза рассматриваются на более равной основе.

Один наивный Байесовский подход к проверке гипотез заключается в принятии решений на основе апостериорная вероятность,[30][31] но это не удается при сравнении точечных и непрерывных гипотез. Другие подходы к принятию решений, такие как Байесовская теория принятия решений, попытайтесь сбалансировать последствия неправильных решений по всем возможностям, вместо того, чтобы концентрироваться на одной нулевой гипотезе. Ряд других подходов к принятию решения на основе данных доступен через теория принятия решений и оптимальные решения, некоторые из которых обладают желаемыми свойствами. Однако проверка гипотез - доминирующий подход к анализу данных во многих областях науки. Расширения теории проверки гипотез включают изучение мощность тестов, то есть вероятность правильного отклонения нулевой гипотезы при условии, что она ложна. Такие соображения можно использовать с целью определение размера выборки до сбора данных.

История

Раннее использование

В то время как проверка гипотез была популяризирована в начале 20 века, ранние формы использовались в 1700-х годах. Первое использование засчитывается Джон Арбетнот (1710),[32] с последующим Пьер-Симон Лаплас (1770-е), анализируя соотношение полов человека при рождении; видеть § Соотношение полов человека.

Современное происхождение и ранние споры

Современное тестирование значимости во многом является продуктом Карл Пирсон (п-ценить, Критерий хи-квадрат Пирсона ), Уильям Сили Госсет (Распределение Стьюдента ), и Рональд Фишер ("нулевая гипотеза ", дисперсионный анализ, "тест значимости "), а проверка гипотез была разработана Ежи Нейман и Эгон Пирсон (сын Карла). Рональд Фишер начал свою жизнь в статистике как байесовец (Zabell 1992), но вскоре Фишер разочаровался в вовлеченной субъективности (а именно в использовании принцип безразличия при определении априорных вероятностей) и стремился обеспечить более «объективный» подход к индуктивному выводу.[33]

Фишер был статистиком в области сельского хозяйства, который подчеркивал строгий экспериментальный план и методы извлечения результатов из нескольких выборок, предполагающих гауссовские распределения. Нейман (который объединился с младшим Пирсоном) подчеркивал математическую строгость и методы для получения большего количества результатов из многих выборок и более широкого диапазона распределений. Современная проверка гипотез представляет собой противоречивый гибрид формулировок, методов и терминологии Фишера и Неймана / Пирсона, разработанных в начале 20 века.

Фишер популяризировал «тест значимости». Ему требовалась нулевая гипотеза (соответствующая распределению частот населения) и выборка. Его (теперь уже знакомые) вычисления определили, следует ли отвергать нулевую гипотезу или нет. Тестирование значимости не использовало альтернативную гипотезу, поэтому не было концепции ошибки типа II.

В п-значение было разработано как неформальный, но объективный показатель, призванный помочь исследователю определить (на основе других знаний), следует ли изменять будущие эксперименты или усилить свои Вера в нулевой гипотезе.[34] Проверка гипотез (и ошибки типа I / II) была изобретена Нейманом и Пирсоном как более объективная альтернатива теории Фишера. п-значение, также предназначенное для определения поведения исследователя, но не требующее индуктивный вывод исследователем.[35][36]

Нейман и Пирсон рассмотрели другую проблему (которую они назвали «проверкой гипотез»). Первоначально они рассмотрели две простые гипотезы (обе с частотным распределением). Они вычисляли две вероятности и обычно выбирали гипотезу, связанную с более высокой вероятностью (гипотеза с большей вероятностью сгенерировала выборку). Их метод всегда выбирал гипотезу. Это также позволило вычислить оба типа вероятностей ошибок.

Фишер и Нейман / Пирсон ожесточенно столкнулись. Нейман / Пирсон считали их формулировку улучшенным обобщением проверки значимости (определяющая статья.[35] был Абстрактные. Математики обобщали и уточняли теорию на протяжении десятилетий.[37]Фишер считал, что это неприменимо к научным исследованиям, потому что часто в ходе эксперимента обнаруживается, что первоначальные предположения о нулевой гипотезе сомнительны из-за неожиданных источников ошибок. Он считал, что использование жестких решений об отклонении / принятии, основанных на моделях, сформулированных до сбора данных, несовместимо с этим распространенным сценарием, с которым сталкиваются ученые, и попытки применить этот метод к научным исследованиям приведут к массовому беспорядку.[38]

Спор между Фишером и Нейманом – Пирсоном велся на философских основаниях, и философ характеризовал его как спор о надлежащей роли моделей в статистическом выводе.[39]

Вмешались события: Нейман занял позицию в западном полушарии, разорвав свое партнерство с Пирсоном и разделив спорящих (которые занимали то же здание) на большую часть диаметра планеты. Вторая мировая война дала перерыв в дебатах. Спор между Фишером и Нейманом прекратился (не разрешенный через 27 лет) со смертью Фишера в 1962 году. Нейман написал хорошо известную панегирик.[40] В некоторых из более поздних публикаций Неймана сообщалось п-значения и уровни значимости.[41]

Современная версия проверки гипотез представляет собой гибрид двух подходов, возникших в результате путаницы со стороны авторов статистических учебников (как предсказывал Фишер), начиная с 1940-х годов.[42] (Но обнаружение сигнала (например, все еще использует формулировку Неймана / Пирсона). Большие концептуальные различия и многие оговорки в дополнение к упомянутым выше были проигнорированы. Нейман и Пирсон предоставили более строгую терминологию, более строгую математику и более последовательную философию, но предмет, который преподается сегодня во вводной статистике, имеет больше общего с методом Фишера, чем их.[43] Эта история объясняет противоречивую терминологию (пример: нулевая гипотеза никогда не принимается, но есть область принятия).

Где-то около 1940 года,[42] в явной попытке предоставить исследователям "не вызывающий споров"[44] путь к есть свой торт и съесть его тоже, авторы статистических учебников начали анонимно комбинировать эти две стратегии, используя п-значение вместо статистика теста (или данные) для проверки по «уровню значимости» Неймана – Пирсона.[42] Таким образом, исследователям было предложено сделать вывод о силе своих данных относительно некоторых нулевая гипотеза с помощью п-значения, при этом думая, что они сохраняют после сбора данных объективность обеспечивается проверкой гипотез. Затем стало обычным, что нулевая гипотеза, которая изначально была некой реалистичной исследовательской гипотезой, использовалась почти исключительно как соломинка «нулевая» гипотеза (когда лечение не дает эффекта, независимо от контекста).[45]

Сравнение между фишерианцем и частотником (Нейман – Пирсон)
#Проверка нулевой гипотезы ФишераТеория принятия решений Неймана – Пирсона
1Установите статистическую нулевую гипотезу. Нулевое значение не обязательно должно быть нулевой гипотезой (т. Е. Нулевой разностью).Установите две статистические гипотезы, H1 и H2, и определите α, β и размер выборки перед экспериментом, исходя из субъективных соображений рентабельности. Они определяют область отклонения для каждой гипотезы.
2Сообщите точный уровень значимости (например, p = 0,051 или p = 0,049). Не используйте общепринятый уровень 5% и не говорите о принятии или отклонении гипотез. Если результат «незначителен», не делайте выводов и не принимайте никаких решений, но отложите оценку до тех пор, пока не будут доступны дополнительные данные.Если данные попадают в область отклонения H1, принять H2; в противном случае примите H1. Обратите внимание, что принятие гипотезы не означает, что вы в нее верите, а только то, что вы действуете так, как если бы она была правдой.
3Используйте эту процедуру только в том случае, если о проблеме известно мало, и только для того, чтобы сделать предварительные выводы в контексте попытки понять экспериментальную ситуацию.Полезность процедуры ограничена, среди прочего, ситуациями, когда у вас есть дизъюнкция гипотез (например, либо μ1 = 8, либо μ2 = 10 истинно) и где вы можете найти значимый компромисс между затратами и выгодой для выбора альфа и бета.

Ранний выбор нулевой гипотезы

Пол Миль утверждал, что эпистемологический важность выбора нулевой гипотезы в значительной степени осталась непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент будет более серьезной проверкой лежащей в основе теории. Когда нулевая гипотеза по умолчанию равна «нет разницы» или «нет эффекта», более точный эксперимент - менее серьезная проверка теории, которая мотивировала проведение эксперимента.[46] Таким образом, может оказаться полезным изучение истоков последней практики:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он заявляет: «Естественно сделать вывод, что эти возможности почти в одинаковом соотношении». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть равной с учетом «общепринятого мнения».[23]

1900: Карл Пирсон развивает критерий хи-квадрат чтобы определить, «будет ли данная форма частотной кривой эффективно описывать выборки, взятые из данной совокупности». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказываемым теорией. Он использует в качестве примера числа пять и шесть в Данные о броске костей Велдона.[47]

1904: Карл Пирсон развивает концепцию "случайность ", чтобы определить, являются ли результаты независимый данного категориального фактора. Здесь нулевая гипотеза по умолчанию состоит в том, что две вещи не связаны между собой (например, образование рубцов и уровень смертности от оспы).[48] Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, а вместо этого является принцип безразличия что привело Фишер и другие, чтобы отказаться от использования «обратных вероятностей».[49]

Проверка статистической значимости нулевой гипотезы

Пример проверки гипотезы Неймана – Пирсона может быть сделан путем изменения примера с радиоактивным чемоданом. Если «чемодан» на самом деле является экранированным контейнером для транспортировки радиоактивного материала, то можно использовать тест для выбора одной из трех гипотез: отсутствие радиоактивного источника, наличие одного, наличие двух (всех). Испытание может потребоваться для обеспечения безопасности, с действиями, необходимыми в каждом случае. В Лемма Неймана – Пирсона. проверки гипотез говорит, что хорошим критерием для выбора гипотез является соотношение их вероятностей (a отношение правдоподобия ). Простой способ решения - выбрать гипотезу с наибольшей вероятностью для наблюдаемых подсчетов Гейгера. Типичный результат соответствует интуиции: несколько подсчетов подразумевают отсутствие источника, многие подсчеты подразумевают два источника, а промежуточные подсчеты подразумевают один источник. Также обратите внимание, что обычно возникают проблемы с доказывая отрицательный. Нулевые гипотезы должны быть не менее фальсифицируемый.

Теория Неймана – Пирсона может учитывать как априорные вероятности, так и стоимость действий, вытекающих из решений.[50] Первый позволяет каждому тесту учитывать результаты более ранних тестов (в отличие от тестов значимости Фишера). Последний позволяет рассматривать экономические вопросы (например), а также вероятности. Отношение правдоподобия остается хорошим критерием для выбора среди гипотез.

Две формы проверки гипотез основаны на разных постановках задачи. Исходный тест аналогичен вопросу «верно / неверно»; тест Неймана – Пирсона больше похож на множественный выбор. По мнению Tukey[51] первый делает вывод на основе только веских доказательств, а второй выносит решение на основе имеющихся доказательств. Хотя эти два теста кажутся совершенно разными как математически, так и философски, более поздние разработки приводят к противоположному утверждению. Рассмотрим множество крошечных радиоактивных источников. Гипотезы превращаются в 0,1,2,3 ... крупинки радиоактивного песка. Существует небольшое различие между отсутствием или некоторым излучением (Фишер) и 0 крупинками радиоактивного песка по сравнению со всеми альтернативами (Нейман – Пирсон). Основная статья Неймана – Пирсона 1933 г.[35] также рассматривались составные гипотезы (те, в распределении которых присутствует неизвестный параметр). Примером доказана оптимальность (Стьюдента) т-тест, «не может быть лучшего теста для рассматриваемой гипотезы» (стр. 321). Теория Неймана – Пирсона с самого начала доказывала оптимальность фишеровских методов.

Тестирование значимости Фишера оказалось популярным гибким статистическим инструментом в приложении с небольшим математическим потенциалом роста. Проверка гипотез Неймана – Пирсона считается столпом математической статистики,[52] создание новой парадигмы в этой области. Это также стимулировало появление новых приложений в Статистическое управление процессами, теория обнаружения, теория принятия решений и теория игры. Оба препарата оказались успешными, но успехи носили разный характер.

Спор по поводу формулировок не решен. Наука в первую очередь использует формулировку Фишера (слегка измененную), как учат во вводной статистике. Статистики изучают теорию Неймана – Пирсона в аспирантуре. Математики гордятся объединением формулировок. Философы рассматривают их отдельно. Выученные мнения считают эти формулировки по-разному конкурирующими (Фишер против Неймана), несовместимыми[33] или дополнительные.[37] Спор стал более сложным, поскольку байесовский вывод стал респектабельным.

Терминология непоследовательна. Проверка гипотез может означать любую смесь двух составов, которые со временем меняются. Любое обсуждение проверки значимости и проверки гипотез вдвойне подвержено путанице.

Фишер считал, что проверка гипотез является полезной стратегией для проведения промышленного контроля качества, однако категорически не согласен с тем, что проверка гипотез может быть полезна для ученых.[34]Проверка гипотез предоставляет средства поиска тестовой статистики, используемой при проверке значимости.[37] Понятие мощности полезно для объяснения последствий корректировки уровня значимости и широко используется в определение размера выборки. Эти два метода остаются философски разными.[39] Обычно они (но не всегда) дают тот же математический ответ. Предпочтительный ответ зависит от контекста.[37] Хотя существующее слияние теорий Фишера и Неймана – Пирсона подвергалось резкой критике, рассматривалось изменение слияния для достижения байесовских целей.[53]

Критика

Критика проверки статистических гипотез заполняет объемы[54][55][56][57][58][59]. Большую часть критики можно свести к следующим вопросам:

  • Интерпретация п-значение зависит от правила остановки и определения множественного сравнения. Первое часто меняется в ходе исследования, а второе неизбежно неоднозначно. (т.е. «значения p зависят как от наблюдаемых (данных), так и от других возможных (данных), которые могли наблюдаться, но не были»).[60]
  • Путаница, возникающая (частично) из-за комбинирования методов Фишера и Неймана – Пирсона, которые концептуально различны.[51]
  • Акцент на статистической значимости, исключение оценки и подтверждения повторными экспериментами.[61]
  • Жесткое требование статистической значимости в качестве критерия публикации, что приводит к предвзятость публикации.[62] Большая часть критики носит косвенный характер. Вместо того, чтобы ошибаться, статистическая проверка гипотез неправильно понимается, используется чрезмерно и неправильно.
  • При использовании для определения, существует ли разница между группами, возникает парадокс. По мере внесения усовершенствований в план эксперимента (например, повышение точности измерения и размера выборки) тест становится более щадящим. Если не принять абсурдное предположение, что все источники шума в данных полностью исключаются, шанс найти статистическую значимость в любом направлении приближается к 100%.[63] Однако это абсурдное предположение о том, что средняя разница между двумя группами не может быть нулевой, означает, что данные не могут быть независимыми и одинаково распределенными (i.i.d.), потому что ожидаемая разница между любыми двумя подгруппами i.i.d. случайные переменные равны нулю; поэтому i.i.d. предположение тоже абсурдно.
  • Слои философских проблем. Вероятность статистической значимости - это функция решений, принятых экспериментаторами / аналитиками.[11] Если решения основаны на условности, их называют произвольными или бездумными.[44] а те, что не основаны на этом, можно назвать субъективными. Чтобы свести к минимуму ошибки типа II, рекомендуется использовать большие образцы. В психологии практически все нулевые гипотезы объявляются ложными для достаточно больших выборок, поэтому «... обычно бессмысленно проводить эксперимент с единственный цель отклонить нулевую гипотезу. ".[64] «Статистически значимые результаты часто вводят в заблуждение» в психологии.[65] Статистическая значимость не предполагает практического значения и корреляция не подразумевает причинно-следственной связи. Таким образом, ставить под сомнение нулевую гипотезу - это далеко не прямое подтверждение исследовательской гипотезы.
  • «[Я] т не говорит нам того, что мы хотим знать».[66] Доступны списки из десятков жалоб.[58][67][68]

Критики и сторонники в основном согласны с фактами относительно характеристик проверки значимости нулевой гипотезы (NHST): хотя она может предоставить важную информацию, она неадекватен как единственный инструмент статистического анализа. Успешный отказ от нулевой гипотезы может не поддержать исследовательскую гипотезу. Продолжающиеся споры касаются выбора лучших статистических практик на ближайшее будущее с учетом (часто плохих) существующих практик. Критики предпочли бы полностью запретить NHST, заставив полностью отказаться от этой практики, в то время как сторонники предлагают менее абсолютные изменения.[нужна цитата ]

Споры по поводу проверки значимости и ее влияния на предвзятость публикации, в частности, дали несколько результатов. Американская психологическая ассоциация ужесточила свои требования к статистической отчетности после обзора,[69] издатели медицинских журналов признали обязанность публиковать некоторые результаты, которые не являются статистически значимыми, для борьбы с предвзятостью публикации[70] и журнал (Журнал статей в поддержку нулевой гипотезы) был создан исключительно для публикации таких результатов.[71] Учебники добавили некоторые предостережения[72] и расширенный охват инструментов, необходимых для оценки размера выборки, необходимой для получения значимых результатов. Крупные организации не отказались от использования критериев значимости, хотя некоторые обсуждали это.[69]

Альтернативы

Объединяющая позиция критиков заключается в том, что статистика должна приводить не к выводу или решению «принять-отклонить», а к оценочной стоимости с интервальная оценка; эта философия анализа данных широко известна как оценка статистики. Статистику оценки можно выполнить с помощью любого частотного [1] или байесовские методы.[73]

Один сильный критик тестирования значимости предложил список альтернативных вариантов отчетности:[74] размеры эффекта для важности, интервалы прогнозирования для уверенности, репликации и расширения для воспроизводимости, метаанализ для общности. Ни одна из этих предложенных альтернатив не приводит к выводу / решению. Леманн сказал, что теорию проверки гипотез можно представить в виде выводов / решений, вероятностей или доверительных интервалов. «Различие между ... подходами заключается в основном в отчетности и интерпретации».[75]

По одной «альтернативе» разногласий нет: сам Фишер сказал:[26] «Что касается проверки значимости, мы можем сказать, что явление экспериментально продемонстрировано, если мы знаем, как проводить эксперимент, который редко не дает нам статистически значимого результата». Коэн, влиятельный критик проверки значимости, согласился с этим:[66] "... не ищите волшебной альтернативы NHST [проверка значимости нулевой гипотезы] ... Его не существует. "" ... учитывая проблемы статистической индукции, мы должны, наконец, полагаться, как и старые науки, на репликацию "." Альтернативой "проверке значимости является повторное тестирование. Самый простой способ Чтобы уменьшить статистическую неопределенность, нужно получить больше данных, будь то увеличенный размер выборки или повторные тесты.Никерсон утверждал, что никогда не видел публикации буквально воспроизводимого эксперимента в психологии.[67] Косвенный подход к репликации метаанализ.

Байесовский вывод является одной из предлагаемых альтернатив тестированию значимости. (Никерсон процитировал 10 источников, свидетельствующих об этом, включая Розебум (1960)).[67] Например, байесовский оценка параметров может предоставить обширную информацию о данных, на основе которой исследователи могут сделать выводы, используя неопределенные приоры которые оказывают минимальное влияние на результаты, когда доступно достаточно данных. Психолог Джон К. Крушке предложил байесовскую оценку в качестве альтернативы т-тест.[76] В качестве альтернативы две конкурирующие модели / гипотезы можно сравнить с помощью Байесовские факторы.[77] Байесовские методы можно критиковать за то, что они требуют информации, которая редко доступна в тех случаях, когда наиболее интенсивно используется проверка значимости. Ни априорные вероятности, ни распределение вероятностей тестовой статистики при альтернативной гипотезе часто недоступны в социальных науках.[67]

Сторонники байесовского подхода иногда заявляют, что целью исследователя чаще всего является объективно оценить вероятность который гипотеза верно на основе собранных данных.[78][79] Ни один Фишер проверка значимости, ни Нейман – Пирсон Проверка гипотез может предоставить эту информацию и не претендует на это. Вероятность того, что гипотеза верна, может быть получена только при использовании Теорема Байеса, что было неудовлетворительным как для лагерей Фишера, так и для лагерей Неймана – Пирсона из-за явного использования субъективность в виде априорная вероятность.[35][80] Стратегия Фишера состоит в том, чтобы обойти это с помощью п-ценить (цель индекс основываясь только на данных), за которым следует индуктивный вывод, а Нейман – Пирсон разработал свой подход индуктивное поведение.

Философия

Проверка гипотез и философия пересекаются. Выведенный статистика, который включает проверку гипотез, применяется вероятность. Как вероятность, так и ее применение переплетены с философией. Философ Дэвид Хьюм писал: «Всякое знание вырождается в вероятность». Конкурирующие практические определения вероятность отражают философские различия. Наиболее распространенное применение проверки гипотез - научная интерпретация экспериментальных данных, которая, естественно, изучается специалистами. философия науки.

Фишер и Нейман выступили против субъективности вероятности. Их взгляды способствовали объективным определениям. Суть их исторического разногласия была философской.

Многие из философских критических замечаний по поводу проверки гипотез обсуждаются статистиками в других контекстах, в частности корреляция не подразумевает причинно-следственной связи и дизайн экспериментов.Проверка гипотез продолжает интересовать философов.[39][81]

Образование

В школах все чаще преподают статистику, причем одним из элементов обучения является проверка гипотез.[82][83] Многие выводы, публикуемые в популярной прессе (от политических опросов до медицинских исследований), основаны на статистике. Некоторые авторы заявили, что статистический анализ такого рода позволяет четко обдумать проблемы, связанные с массовыми данными, а также эффективно сообщать о тенденциях и выводах из указанных данных, но следует предостеречь, что авторы для широкой публики должны иметь твердое представление о данной области. чтобы правильно использовать термины и понятия.[84][85][нужна цитата ][84][85][нужна цитата ] На вводном курсе статистики в колледже большое внимание уделяется проверке гипотез - возможно, половина курса. Такие области, как литература и богословие, теперь включают результаты, основанные на статистическом анализе (см. Анализатор Библии ). Вводный класс по статистике преподает проверку гипотез как процесс поваренной книги. Проверка гипотез также преподается в аспирантуре. Статистики узнают, как создавать хорошие процедуры статистического тестирования (например, z, Студенты т, F и хи-квадрат). Статистическая проверка гипотез считается зрелой областью статистики,[75] но ограниченное количество разработок продолжается.

В академическом исследовании говорится, что метод преподавания вводной статистики по кулинарной книге не оставляет времени для истории, философии или споров. Проверка гипотез преподается как единый метод. Опросы показали, что выпускники класса были наполнены философскими заблуждениями (по всем аспектам статистических выводов), которые сохранялись среди преподавателей.[86] Хотя проблема была решена более десяти лет назад,[87] и призывы к реформе образования продолжаются,[88] Студенты по-прежнему заканчивают курсы статистики, придерживаясь фундаментальных заблуждений относительно проверки гипотез.[89] Идеи по совершенствованию обучения проверке гипотез включают поощрение студентов к поиску статистических ошибок в опубликованных статьях, преподавание истории статистики и акцентирование внимания на противоречиях по обычно сухому предмету.[90]

Смотрите также

Рекомендации

  1. ^ Стюарт А., Орд К., Арнольд С. (1999), Продвинутая теория статистики Кендалла: Том 2A - Классический вывод и линейная модель (Арнольд ) §20.2.
  2. ^ Райс, Джон А. (2007). Математическая статистика и анализ данных (3-е изд.). Томсон Брукс / Коул. §9.3.
  3. ^ Burnham, K. P .; Андерсон, Д. Р. (2002). Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.). Springer-Verlag. ISBN  978-0-387-95364-9.
  4. ^ а б Lehmann, E. L .; Романо, Джозеф П. (2005). Проверка статистических гипотез (3E изд.). Нью-Йорк: Спрингер. ISBN  978-0-387-98864-1.
  5. ^ Триола, Марио (2001). Элементарная статистика (8-е изд.). Бостон: Эддисон-Уэсли. п.388. ISBN  978-0-201-61477-0.
  6. ^ Хинкельманн, Клаус и Кемпторн, Оскар (2008). Планирование и анализ экспериментов. I и II (Второе изд.). Вайли. ISBN  978-0-470-38551-7.CS1 maint: несколько имен: список авторов (связь)
  7. ^ Монтгомери, Дуглас (2009). Планирование и анализ экспериментов. Хобокен, штат Нью-Джерси: Wiley. ISBN  978-0-470-12866-4.
  8. ^ Р. А. Фишер (1925).Статистические методы для научных работников, Эдинбург: Оливер и Бойд, 1925, стр.43.
  9. ^ Нуццо, Регина (2014). «Научный метод: статистические ошибки». Природа. 506 (7487): 150–152. Bibcode:2014Натура.506..150Н. Дои:10.1038 / 506150a. PMID  24522584.
  10. ^ Зигрист, Кайл. «Проверка гипотез - Введение». www.randomservices.org. Получено 8 марта, 2018.
  11. ^ а б Бакан, Дэвид (1966). «Тест значимости в психологическом исследовании». Психологический бюллетень. 66 (6): 423–437. Дои:10,1037 / ч0020412. PMID  5974619.
  12. ^ Ричард Дж. Ларсен; Донна Фокс Строуп (1976). Статистика в реальном мире: книга примеров. Макмиллан. ISBN  978-0023677205.
  13. ^ Hubbard, R .; Parsa, A. R .; Люти, М. Р. (1997). «Распространение тестирования статистической значимости в психологии: случай журнала прикладной психологии». Теория и психология. 7 (4): 545–554. Дои:10.1177/0959354397074006. S2CID  145576828.
  14. ^ Мур, Дэвид (2003). Введение в статистическую практику. Нью-Йорк: W.H. Freeman and Co. стр. 426. ISBN  9780716796572.
  15. ^ Хафф, Даррелл (1993). Как соврать со статистикой. Нью-Йорк: Нортон. ISBN  978-0-393-31072-6.
  16. ^ Хафф, Даррелл (1991). Как лгать со статистикой. Лондон: Penguin Books. ISBN  978-0-14-013629-6.
  17. ^ «За последние пятьдесят лет« Как лгать со статистикой »было продано больше копий, чем любого другого статистического текста». Дж. М. Стил. ""Даррелл Хафф и пятьдесят лет Как лгать со статистикой". Статистическая наука, 20 (3), 2005, 205–209.
  18. ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF). Философские труды Лондонского королевского общества. 27 (325–336): 186–190. Дои:10.1098 / рстл.1710.0011. S2CID  186209819.
  19. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении. Springer Science & Business Media. стр.1 –25. ISBN  978-1-4020-6036-6.
  20. ^ Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN  978-0-471-16068-7
  21. ^ Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN  978-0-412-44980-2
  22. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. стр.225–226. ISBN  978-0-67440341-3.
  23. ^ а б Лаплас, П. (1778). "Mémoire sur les probabilités" (PDF). Mémoires de l'Académie Royale des Sciences de Paris. 9: 227–332.
  24. ^ Лаплас, П. (1778). "Mémoire sur les probabilités (XIX, XX)". Совершенные произведения Лапласа. Mémoires de l'Académie Royale des Sciences de Paris. 9. С. 429–438.
  25. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Кембридж, Массачусетс: Belknap Press of Harvard University Press. п.134. ISBN  978-0-674-40340-6.
  26. ^ а б Фишер, сэр Рональд А. (1956) [1935]. "Математика дамы, дегустирующей чай". В Джеймс Рой Ньюман (ред.). Мир математики, том 3 [Дизайн экспериментов]. Courier Dover Publications. ISBN  978-0-486-41151-4. Из книги Фишера Дизайн экспериментов.
  27. ^ Коробка, Джоан Фишер (1978). Р.А. Фишер, Жизнь ученого. Нью-Йорк: Вили. п. 134. ISBN  978-0-471-09300-8.
  28. ^ К. С. Пирс (август 1878 г.). «Иллюстрации логики науки VI: дедукция, индукция и гипотеза». Ежемесячный научно-популярный журнал. 13. Получено 30 марта, 2012.
  29. ^ Джейнс, Э. Т. (2007). Теория вероятностей: логика науки (5. печат. Ред.). Кембридж [u.a.]: Cambridge Univ. Нажмите. ISBN  978-0-521-59271-0.
  30. ^ Шервиш, М. (1996) Теория статистики, п. 218. Спрингер ISBN  0-387-94546-6
  31. ^ Кэй, Дэвид Х .; Фридман, Дэвид А. (2011). «Справочное руководство по статистике». Справочное руководство по научным данным (3-е изд.). Иган, Миннесота, Вашингтон, округ Колумбия: West National Academies Press. п. 259. ISBN  978-0-309-21421-6.
  32. ^ Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» К. Хейде и Э. Сенета, Springer, стр. 39–42, ISBN  978-0-387-95329-8
  33. ^ а б Раймонд Хаббард, М. Дж. Баярри, Значения P не являются вероятностями ошибки В архиве 4 сентября 2013 г. Wayback Machine. Рабочий документ, объясняющий разницу между доказательствами Фишера. п-значение и частота ошибок Неймана – Пирсона типа I. .
  34. ^ а б Фишер, Р. (1955). «Статистические методы и научная индукция» (PDF). Журнал Королевского статистического общества, серия B. 17 (1): 69–78.
  35. ^ а б c d Нейман, Дж; Пирсон, Э. С. (1 января 1933 г.). «К вопросу о наиболее эффективных проверках статистических гипотез». Философские труды Королевского общества A. 231 (694–706): 289–337. Bibcode:1933РСПТА.231..289Н. Дои:10.1098 / рста.1933.0009.
  36. ^ Гудман, С. Н. (15 июня 1999 г.). «К медицинской статистике, основанной на доказательствах. 1: Ошибка значения P». Энн Интерн Мед. 130 (12): 995–1004. Дои:10.7326/0003-4819-130-12-199906150-00008. PMID  10383371. S2CID  7534212.
  37. ^ а б c d Леманн, Э. Л. (декабрь 1993 г.). "Теории Фишера, Неймана – Пирсона проверки гипотез: одна теория или две?". Журнал Американской статистической ассоциации. 88 (424): 1242–1249. Дои:10.1080/01621459.1993.10476404.
  38. ^ Фишер, Р. Н. (1958). «Природа вероятности» (PDF). Столетний обзор. 2: 261–274."Мы очень рискуем послать в мир высококвалифицированных и очень умных молодых людей с таблицами ошибочных чисел под мышками и с густым туманом в том месте, где должен быть их мозг. В этом столетии, конечно, они будут работать над управляемыми ракетами и консультировать медиков по борьбе с болезнями, и нет предела тому, в какой степени они могут препятствовать любым национальным усилиям ".
  39. ^ а б c Ленхард, Йоханнес (2006). «Модели и статистический вывод: противоречие между Фишером и Нейманом-Пирсоном». Br. J. Philos. Наука. 57: 69–91. Дои:10.1093 / bjps / axi152.
  40. ^ Нейман, Ежи (1967). "Р. А. Фишер (1890—1962): Признательность". Наука. 156 (3781): 1456–1460. Bibcode:1967Научный ... 156.1456N. Дои:10.1126 / science.156.3781.1456. PMID  17741062. S2CID  44708120.
  41. ^ Losavich, J. L .; Neyman, J .; Scott, E. L .; Уэллс, М.А. (1971). «Гипотетические объяснения очевидных отрицательных эффектов засева облаков в эксперименте Whitetop». Труды Национальной академии наук Соединенных Штатов Америки. 68 (11): 2643–2646. Bibcode:1971ПНАС ... 68.2643Л. Дои:10.1073 / pnas.68.11.2643. ЧВК  389491. PMID  16591951.
  42. ^ а б c Halpin, P F; Стам, HJ (зима 2006 г.). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии. 119 (4): 625–653. Дои:10.2307/20445367. JSTOR  20445367. PMID  17286092.
  43. ^ Гигеренцер, Герд; Зено Свийтинк; Теодор Портер; Лоррейн Дастон; Джон Битти; Лоренц Крюгер (1989). «Часть 3: Эксперты по выводам». Империя случая: как вероятность изменила науку и повседневную жизнь. Издательство Кембриджского университета. С. 70–122. ISBN  978-0-521-39838-1.
  44. ^ а б Гигеренцер, Г. (ноябрь 2004 г.). «Бездумная статистика». Социально-экономический журнал. 33 (5): 587–606. Дои:10.1016 / j.socec.2004.09.033.
  45. ^ Лофтус, Г. Р. (1991). «О тирании проверки гипотез в социальных науках» (PDF). Современная психология. 36 (2): 102–105. Дои:10.1037/029395.
  46. ^ Мил, П. (1990). "Оценка и исправление теорий: стратегия защиты Лакатоса и два принципа, которые ее подтверждают" (PDF). Психологическое расследование. 1 (2): 108–141. Дои:10.1207 / s15327965pli0102_1.
  47. ^ Пирсон, К. (1900). «По критерию, согласно которому данная система отклонений от вероятного в случае коррелированной системы переменных такова, что можно разумно предположить, что она возникла в результате случайной выборки» (PDF). Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал. 5 (50): 157–175. Дои:10.1080/14786440009463897.
  48. ^ Пирсон, К. (1904). «О теории случайности и ее связи с ассоциацией и нормальной корреляцией». Серия биометрических мемуаров об исследованиях компании Drapers. 1: 1–35.
  49. ^ Забелл, S (1989). "Р. А. Фишер по истории обратной вероятности". Статистическая наука. 4 (3): 247–256. Дои:10.1214 / сс / 1177012488. JSTOR  2245634.
  50. ^ Эш, Роберт (1970). Основная теория вероятностей. Нью-Йорк: Вили. ISBN  978-0471034506.Раздел 8.2
  51. ^ а б Тьюки, Джон В. (1960). «Выводы vs решения». Технометрика. 26 (4): 423–433. Дои:10.1080/00401706.1960.10489909. «Пока мы не пройдемся по отчетам о проверке гипотез, отделяя элементы решения [Неймана-Пирсона] от элементов заключения [Фишера], внутреннее смешение разрозненных элементов будет постоянным источником путаницы». ... «Есть место и для того, чтобы« делать все возможное », и« говорить только то, что достоверно », но в каждом случае важно знать, что делается, а что следует делать. "
  52. ^ Стиглер, Стивен М. (август 1996 г.). «История статистики в 1933 году». Статистическая наука. 11 (3): 244–252. Дои:10.1214 / сс / 1032280216. JSTOR  2246117.
  53. ^ Бергер, Джеймс О. (2003). «Могли ли Фишер, Джеффрис и Нейман договориться о тестировании?». Статистическая наука. 18 (1): 1–32. Дои:10.1214 / сс / 1056397485.
  54. ^ Моррисон, Дентон; Хенкель, Рамон, ред. (2006) [1970]. Противоречие теста значимости. AldineTransaction. ISBN  978-0-202-30879-1.
  55. ^ Оукс, Майкл (1986). Статистический вывод: комментарий для социальных и поведенческих наук. Чичестер, Нью-Йорк: Уайли. ISBN  978-0471104438.
  56. ^ Чоу, Сиу Л. (1997). Статистическая значимость: обоснование, обоснованность и полезность. ISBN  978-0-7619-5205-3.
  57. ^ Харлоу, Лиза Лавуа; Стэнли А. Мулайк; Джеймс Х. Стейгер, ред. (1997). Что делать, если не было тестов на значимость?. Лоуренс Эрлбаум Ассошиэйтс. ISBN  978-0-8058-2634-0.
  58. ^ а б Клайн, Рекс (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях. Вашингтон, округ Колумбия: Американская психологическая ассоциация. ISBN  9781591471189.
  59. ^ McCloskey, Deirdre N .; Стивен Т. Зиляк (2008). Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней. Пресса Мичиганского университета. ISBN  978-0-472-05007-9.
  60. ^ Кукурузное поле, Джером (1976). «Последние методологические вклады в клинические испытания» (PDF). Американский журнал эпидемиологии. 104 (4): 408–421. Дои:10.1093 / oxfordjournals.aje.a112313. PMID  788503.
  61. ^ Йетс, Франк (1951). «Влияние статистических методов научных исследований на развитие статистической науки». Журнал Американской статистической ассоциации. 46 (253): 19–34. Дои:10.1080/01621459.1951.10500764. «Акцент, который делается на формальных тестах значимости во всех статистических методах [Р. А. Фишера] ... заставил научных исследователей уделять чрезмерное внимание результатам тестов значимости, которые они проводят на своих данных, особенно данных, полученных в результате экспериментов, а также мало что касается оценок масштабов исследуемых ими эффектов ". ... «Акцент на проверке значимости и рассмотрение результатов каждого эксперимента в отдельности привели к печальным последствиям: научные работники часто считали выполнение проверки значимости эксперимента конечной целью».
  62. ^ Бегг, Колин Б.; Берлин, Джесси А. (1988). «Предвзятость публикации: проблема интерпретации медицинских данных». Журнал Королевского статистического общества, серия A. 151 (3): 419–463. Дои:10.2307/2982993. JSTOR  2982993.
  63. ^ Мил, Пол Э. (1967). «Теория-тестирование в психологии и физике: методологический парадокс» (PDF). Философия науки. 34 (2): 103–115. Дои:10.1086/288135. S2CID  96422880. Архивировано из оригинал (PDF) 3 декабря 2013 г. Тридцать лет спустя Миль признал теорию статистической значимости математически обоснованной, продолжая при этом подвергать сомнению выбор нулевой гипотезы по умолчанию, вместо этого обвиняя в «плохом понимании социологами логической связи между теорией и фактом» в статье «Проблема - это эпистемология, а не Статистика: заменить тесты значимости доверительными интервалами и количественно оценить точность рискованных численных прогнозов »(глава 14 в Harlow (1997)).
  64. ^ Наннэлли, Джам (1960). «Место статистики в психологии». Образовательные и психологические измерения. 20 (4): 641–650. Дои:10.1177/001316446002000401. S2CID  144813784.
  65. ^ Lykken, Дэвид Т. (1991). «Что вообще не так с психологией?». Ясное мышление о психологии. 1: 3–39.
  66. ^ а б Джейкоб Коэн (декабрь 1994 г.). «Земля круглая (р <0,05)». Американский психолог. 49 (12): 997–1003. Дои:10.1037 / 0003-066X.49.12.997. S2CID  380942. Этот документ приводит к обзору статистической практики АПА. Коэн был членом целевой группы, которая проводила обзор.
  67. ^ а б c d Никерсон, Раймонд С. (2000). "Проверка значимости нулевой гипотезы: обзор давних и продолжающихся споров". Психологические методы. 5 (2): 241–301. Дои:10.1037 / 1082-989X.5.2.241. PMID  10937333. S2CID  28340967.
  68. ^ Филиал, Марк (2014). «Злокачественные побочные эффекты проверки значимости нулевой гипотезы». Теория и психология. 24 (2): 256–277. Дои:10.1177/0959354314525282. S2CID  40712136.
  69. ^ а б Уилкинсон, Лиланд (1999). «Статистические методы в психологических журналах; рекомендации и пояснения». Американский психолог. 54 (8): 594–604. Дои:10.1037 / 0003-066X.54.8.594. «Проверка гипотез. Трудно представить себе ситуацию, в которой дихотомическое решение принять-отклонить лучше, чем сообщить фактическое значение p или, что еще лучше, доверительный интервал». (стр. 599). Комитет использовал предостерегающий термин «воздержание» при описании своего решения против запрета проверки гипотез в психологических репортажах. (стр 603)
  70. ^ «ICMJE: Обязательство публиковать отрицательные исследования». Архивировано из оригинал 16 июля 2012 г.. Получено 3 сентября, 2012. Редакторы должны серьезно рассмотреть для публикации любое тщательно проведенное исследование важного вопроса, имеющего отношение к их читателям, независимо от того, являются ли результаты для основного или любого дополнительного результата статистически значимыми. Неспособность представить или опубликовать результаты из-за отсутствия статистической значимости является важной причиной систематической ошибки публикации.
  71. ^ Журнал статей в поддержку нулевой гипотезы интернет сайт: Домашняя страница JASNH. Том 1 номер 1 был опубликован в 2002 году, и все статьи посвящены психологии.
  72. ^ Хауэлл, Дэвид (2002). Статистические методы психологии (5-е изд.). Даксбери. п.94. ISBN  978-0-534-37770-0.
  73. ^ Крушке, Дж. К. (9 июля 2012 г.). «Байесовская оценка заменяет T-тест» (PDF). Журнал экспериментальной психологии: Общие. 142 (2): 573–603. Дои:10.1037 / a0029146. PMID  22774788.
  74. ^ Армстронг, Дж. Скотт (2007). «Тесты значимости вредят прогрессу в прогнозировании». Международный журнал прогнозирования. 23 (2): 321–327. CiteSeerX  10.1.1.343.9516. Дои:10.1016 / j.ijforecast.2007.03.004.
  75. ^ а б Э. Л. Леманн (1997). «Проверка статистических гипотез: история книги». Статистическая наука. 12 (1): 48–52. Дои:10.1214 / сс / 1029963261.
  76. ^ Крушке, Дж. К. (9 июля 2012 г.). «Байесовская оценка заменяет T-тест» (PDF). Журнал экспериментальной психологии: Общие. 142 (2): 573–603. Дои:10.1037 / a0029146. PMID  22774788.
  77. ^ Касс, Р. Э. (1993). «Байесовские факторы и неопределенность модели» (PDF). Департамент статистики Вашингтонского университета. Цитировать журнал требует | журнал = (помощь)
  78. ^ Розебум, Уильям У (1960). «Ошибочность проверки значимости нулевой гипотезы» (PDF). Психологический бюллетень. 57 (5): 416–428. CiteSeerX  10.1.1.398.9002. Дои:10,1037 / ч0042040. PMID  13744252. «... надлежащее применение статистики к научным выводам безоговорочно требует всестороннего рассмотрения обратных [AKA байесовских] вероятностей ...» С сожалением было признано, что априорные вероятностные распределения были доступны «только как субъективное ощущение, отличаясь от одного человека к другому ", по крайней мере, в ближайшем будущем".
  79. ^ Бергер, Джеймс (2006). «Доводы в пользу объективного байесовского анализа». Байесовский анализ. 1 (3): 385–402. Дои:10.1214 / 06-ba115. При перечислении конкурирующих определений «объективного» байесовского анализа: «Основная цель статистики (по сути науки) - найти полностью согласованную объективную байесовскую методологию обучения на основе данных». Автор высказал мнение, что эта цель «недостижима».
  80. ^ Олдрич, Дж (2008). "Р. А. Фишер по теореме Байеса и Байеса" (PDF). Байесовский анализ. 3 (1): 161–170. Дои:10.1214 / 08-BA306. Архивировано из оригинал (PDF) 6 сентября 2014 г.
  81. ^ Mayo, D.G .; Спанос, А. (2006). «Суровые испытания как основная концепция в философии индукции Неймана – Пирсона». Британский журнал философии науки. 57 (2): 323–357. CiteSeerX  10.1.1.130.8131. Дои:10.1093 / bjps / axl003.
  82. ^ Математика> Средняя школа: Статистика и теория вероятностей> Введение В архиве 28 июля 2012 г., в Archive.today Common Core State Standards Initiative (касается студентов из США)
  83. ^ Тесты College Board> AP: Subjects> Statistics Совет колледжей (относится к студентам из США)
  84. ^ а б Хафф, Даррелл (1993). Как соврать со статистикой. Нью-Йорк: Нортон. п.8. ISBN  978-0-393-31072-6.«Статистические методы и статистические термины необходимы при представлении массовых данных о социальных и экономических тенденциях, условиях ведения бизнеса, опросах общественного мнения, переписи населения. Но без писателей, которые честно используют эти слова, и без читателей, знающих, что они означают, результатом может быть только семантическая чепуха ».
  85. ^ а б Снедекор, Джордж В .; Кокран, Уильям Г. (1967). Статистические методы (6 изд.). Эймс, Айова: Издательство государственного университета Айовы. п. 3. «... основные идеи в статистике помогают нам ясно осмыслить проблему, дают некоторые указания относительно условий, которые должны быть выполнены, чтобы делать правильные выводы, и позволяют нам обнаруживать многие выводы, не имеющие хорошей логической основы. "
  86. ^ Сотос, Ана Элиза Кастро; Ванхуф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2007). «Неправильные представления студентов о статистических выводах: обзор эмпирических данных исследований по статистике образования» (PDF). Обзор образовательных исследований. 2 (2): 98–113. Дои:10.1016 / j.edurev.2007.04.001.
  87. ^ Мур, Дэвид С. (1997). «Новая педагогика и новое содержание: случай статистики» (PDF). Международный статистический обзор. 65 (2): 123–165. Дои:10.2307/1403333. JSTOR  1403333.
  88. ^ Хаббард, Раймонд; Армстронг, Дж. Скотт (2006). «Почему мы действительно не знаем, что означает статистическая значимость: последствия для преподавателей» (PDF). Журнал маркетингового образования. 28 (2): 114–120. Дои:10.1177/0273475306288399. HDL:2092/413. S2CID  34729227. Архивировано 18 мая 2006 года.CS1 maint: неподходящий URL (связь) Препринт
  89. ^ Сотос, Ана Элиза Кастро; Ванхуф, Стейн; Ноортгейт, Вим Ван ден; Онгена, Патрик (2009). «Насколько уверены студенты в своих неправильных представлениях о проверках гипотез?». Журнал статистики образования. 17 (2). Дои:10.1080/10691898.2009.11889514.
  90. ^ Гигеренцер, Г. (2004). «Нулевой ритуал. Что вы всегда хотели знать о серьезном тестировании, но боялись спросить» (PDF). Справочник SAGE по количественной методологии для социальных наук. С. 391–408. Дои:10.4135/9781412986311. ISBN  9780761923596.

дальнейшее чтение

внешняя ссылка

Онлайн калькуляторы