Статистическая значимость - Statistical significance

В статистическая проверка гипотез,[1][2] результат Статистическая значимость когда это маловероятно, учитывая нулевая гипотеза.[3][4] Точнее, исследование определяется уровень значимости, обозначаемый , - вероятность того, что исследование отвергнет нулевую гипотезу, учитывая, что нулевая гипотеза считалась верной;[5] и п-ценность результата, , - вероятность получения не менее экстремального результата при условии, что нулевая гипотеза верна.[6] Результат статистически значимый, по стандартам исследования, когда .[7][8][9][10][11][12][13] Уровень значимости для исследования выбирается до сбора данных и обычно составляет 5%.[14] или намного ниже - в зависимости от области обучения.[15]

В любой эксперимент или наблюдение это включает в себя рисование образец из Население, всегда есть вероятность, что наблюдаемый эффект произошел бы из-за ошибка выборки один.[16][17] Но если п-значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции,[1] тем самым отвергая нулевую гипотезу.[18]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Период, термин значение здесь не имеет значения, и термин Статистическая значимость это не то же самое, что исследовательское, теоретическое или практическое значение.[1][2][19][20] Например, термин клиническое значение относится к практическому значению лечебного эффекта.[21]

История

Статистическое значение относится к 1700-м годам, в работах Джон Арбетнот и Пьер-Симон Лаплас, который вычислил п-ценность для соотношение полов человека при рождении, предполагая нулевую гипотезу о равной вероятности рождения мужского и женского пола; увидеть п-значение § История для подробностей.[22][23][24][25][26][27][28]

В 1925 г. Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации. Статистические методы для научных работников.[29][30][31] Фишер предложил вероятность один к двадцати (0,05) в качестве удобного порогового уровня для отклонения нулевой гипотезы.[32] В статье 1933 г. Ежи Нейман и Эгон Пирсон назвал это отсечкой уровень значимости, которые они назвали . Они рекомендовали устанавливаться заранее, до сбора любых данных.[32][33]

Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 г. Статистические методы и научные выводы, он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами.[32]

Связанные понятия

Уровень значимости это порог для ниже которого нулевая гипотеза отклоняется, даже если по предположению она верна, и происходит что-то еще. Это значит, что также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна.[5] Это также называется ложно положительный и ошибка типа I.

Иногда исследователи говорят о уровень уверенности γ = (1 − α) вместо. Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна.[34][35] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году.[36]

Роль в статистической проверке гипотез

В двусторонний тест, область отклонения для уровня значимости α = 0.05 разделен на оба конца выборочное распределение и составляет 5% площади под кривой (белые участки).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется для определения того, нулевая гипотеза следует отклонить или оставить. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось.[37] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т.е. п-значение меньше заданного уровня значимости .

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет п-значение, которое представляет собой вероятность наблюдения эффекта такой же величины или более экстремального при условии, что нулевая гипотеза верна.[6][13] Нулевая гипотеза отклоняется, если п-значение меньше (или равно) заданного уровня, . также называется уровень значимости, и - вероятность отклонения нулевой гипотезы при условии, что она верна (a ошибка типа I ). Обычно устанавливается на уровне 5% или ниже.

Например, когда установлен на 5%, условная возможность из ошибка типа I, учитывая, что нулевая гипотеза верна, составляет 5%,[38] а статистически значимый результат - это тот, где наблюдаемые п-значение меньше (или равно) 5%.[39] При извлечении данных из образца это означает, что область отклонения составляет 5% от выборочное распределение.[40] Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в односторонний тест, или разделены на обе стороны распределения, как в двусторонний тест, причем каждый хвост (или область отклонения) содержит 2,5% распределения.

Использование одностороннего теста зависит от того, исследовать вопрос или Альтернативная гипотеза указывает направление, например, является ли группа объектов тяжелее или успеваемость учащихся по оценке лучше.[3] Двусторонний тест можно использовать, но он будет меньше. мощный чем односторонний тест, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше (5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний критерий.[41] Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.

Пороги значимости в определенных областях

В определенных областях, таких как физика элементарных частиц и производство, статистическая значимость часто выражается в кратных среднеквадратичное отклонение или сигма (σ) из нормальное распределение, с более строгими порогами значимости (например, 5σ).[42][43] Например, уверенность в бозон Хиггса существование частицы было основано на 5σ критерий, который соответствует п-значение примерно 1 из 3,5 миллиона.[43][44]

В других областях научных исследований, таких как полногеномные ассоциации исследований, уровни значимости всего лишь 5×10−8 не редкость[45][46]- поскольку количество выполненных тестов чрезвычайно велико.

Ограничения

Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщить о несущественных выводах.[47] и не воспроизводится.[48][49] Также существует разница между статистической и практической значимостью. Исследование, которое признано статистически значимым, не обязательно может иметь практическое значение.[50][20]

Размер эффекта

Величина эффекта - это мера практической значимости исследования.[50] Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с п-ценности. Мера размера эффекта количественно определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см. Коэна d ), коэффициент корреляции между двумя переменными или его площадь, и другие меры.[51]

Воспроизводимость

Статистически значимый результат может быть непросто воспроизвести.[49] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным.[52]

Вызовы

Чрезмерное использование в некоторых журналах

Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога α= 5%, на него слишком сильно полагались как на главный критерий достоверности гипотезы.[53] Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В социальной психологии журнал Базовая и прикладная социальная психология запретил использование проверки значимости в опубликованных им статьях,[54] требуя от авторов использовать другие меры для оценки гипотез и воздействия.[55][56]

Другие редакторы, комментируя этот запрет, отметили: «Запрет публикации п-значения, как это недавно сделала базовая и прикладная социальная психология, не решат проблему, потому что они просто изучают ее симптом. Нет ничего плохого в проверке гипотез и п-значения сами по себе, если авторы, рецензенты и редакторы действий используют их правильно ».[57] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или Байесовские факторы.[58] С помощью Байесовская статистика может избежать уровней уверенности, но также требует дополнительных предположений,[58] и не обязательно может улучшить практику статистического тестирования.[59]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанаука.[60]

Новое определение значения

В 2016 г. Американская статистическая ассоциация (ASA) опубликовала заявление на п-значения, говорящие о том, что «широко распространенное использование« статистической значимости »(обычно интерпретируется как«п ≤ 0,05 '), поскольку лицензия на утверждение научного открытия (или подразумеваемой истины) приводит к значительному искажению научного процесса ".[58] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив п-значение порога статистической значимости от 0,05 до 0,005.[61] Другие исследователи ответили, что введение более строгого порога значимости усугубит такие проблемы, как дноуглубительные работы; альтернативные предложения, таким образом, должны выбрать и обосновать гибкие п-значение пороговых значений перед сбором данных,[62] или интерпретировать п-значения как непрерывные индексы, тем самым отбрасывая пороговые значения и статистическую значимость.[63] Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать.[64]

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке.[65] и Американская статистическая ассоциация опубликовала еще одно официальное заявление [66] декларируя (стр. 2):

На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пора полностью отказаться от термина «статистически значимый». Также не следует использовать такие варианты, как «существенно отличается»,, "и" несущественные "сохраняются, выраженные словами, звездочками в таблице или каким-либо другим образом.

Смотрите также

использованная литература

  1. ^ а б c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN  978-1-412-90546-6.
  2. ^ а б Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN  978-0-873-89745-7.
  3. ^ а б Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 65–90. ISBN  978-0-805-86431-1.
  4. ^ «Букварь по статистической значимости». Математическое хранилище. 2017-04-30. Получено 2019-11-11.
  5. ^ а б Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R. Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. Дои:10.1007/978-0-387-79054-1_9. ISBN  978-0-387-79053-4.
  6. ^ а б «Статистическая проверка гипотез». www.dartmouth.edu. Получено 2019-11-11.
  7. ^ Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных». Труды Национальной академии наук. 110 (48): 19313–19317. Дои:10.1073 / pnas.1313476110. ЧВК  3845140. PMID  24218581. Получено 3 июля 2014.
  8. ^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях. Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN  978-0-471-82211-0.
  9. ^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк, США: Рутледж. С. 27–28.
  10. ^ Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты». Природные методы. 10 (11): 1041–1042. Дои:10.1038 / nmeth.2698. PMID  24344377.
  11. ^ Sham, Pak C .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетика. 15 (5): 335–346. Дои:10.1038 / nrg3706. PMID  24739678.
  12. ^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований. Нью-Йорк, США: Chapman & Hall / CRC. стр.167. ISBN  978-0412276309.
  13. ^ а б Деворе, Джей Л. (2011). Вероятность и статистика для инженерии и науки (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN  978-0-538-73352-6.
  14. ^ Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики. 3. Таузенд-Оукс, Калифорния: SAGE Publications. С. 889–891. ISBN  978-1-412-91611-0.
  15. ^ Спроул, Натали Л. (2002). "Проверка гипотезы". Справочник по методам исследования: Руководство для практиков и студентов социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр.49–64. ISBN  978-0-810-84486-5.
  16. ^ Бэбби, Эрл Р. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN  978-1-133-04979-1.
  17. ^ Фаэрти, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ для социальных служб (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN  978-1-412-93982-9.
  18. ^ Маккиллап, Стив (2006). «Вероятность помогает вам принять решение о ваших результатах». Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. стр.44–56. ISBN  978-0-521-54316-3.
  19. ^ Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 124–153. ISBN  978-0-805-86431-1.
  20. ^ а б Хупер, Питер. "Что такое P-значение?" (PDF). Университет Альберты, факультет математических и статистических наук. Получено 10 ноября, 2019.
  21. ^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения». Последипломный медицинский журнал. 77 (905): 201–204. Дои:10.1136 / pmj.77.905.201. ISSN  0032-5473. ЧВК  1741942. PMID  11222834.
  22. ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении. Springer Science & Business Media. С. 1–25. ISBN  978-1-4020-6036-6.
  23. ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF). Философские труды Лондонского королевского общества. 27 (325–336): 186–190. Дои:10.1098 / рстл.1710.0011.
  24. ^ Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN  978-0-471-16068-7
  25. ^ Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN  978-0-412-44980-2
  26. ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. стр.225–226. ISBN  978-0-67440341-3.
  27. ^ Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» Ч. Хейде и Э. Сенета, Springer, стр. 39–42, ISBN  978-0-387-95329-8
  28. ^ Халд, Андерс (1998), «Глава 4. Случайность или замысел: критерии значимости», История математической статистики с 1750 по 1930 гг., Wiley, стр. 65
  29. ^ Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Серия многомерных приложений. Восточный Сассекс, Великобритания: Рутледж. С. 21–52. ISBN  978-0-415-87968-2.
  30. ^ Фишер, Рональд А. (1925). Статистические методы для научных работников. Эдинбург, Великобритания: Оливер и Бойд. стр.43. ISBN  978-0-050-02170-5.
  31. ^ Полетек, Фенна Х. (2001). «Формальные теории тестирования». Поведение при проверке гипотез. Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN  978-1-841-69159-6.
  32. ^ а б c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Планирование экспериментов и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.46–69. ISBN  978-0-521-00976-8.
  33. ^ Neyman, J .; Пирсон, Э. (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества. 29 (4): 492–510. Дои:10.1017 / S030500410001152X.
  34. ^ «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Баптист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?". Deutsches Ärzteblatt Online. 106 (19): 335–9. Дои:10.3238 / arztebl.2009.0335. ЧВК  2689604. PMID  19547734.
  35. ^ StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость
  36. ^ Нейман, Дж. (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей». Философские труды Королевского общества A. 236 (767): 333–380. Дои:10.1098 / рста.1937.0005. JSTOR  91337.
  37. ^ Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN  978-1-111-34280-7.
  38. ^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN  978-0-495-60143-2.
  39. ^ Маккиллап, Стив (2006). Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.32–38. ISBN  978-0-521-54316-3.
  40. ^ Здоровье, Дэвид (1995). Введение в экспериментальный план и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN  978-1-857-28132-3.
  41. ^ Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 79–90. ISBN  978-1-848-72312-2.
  42. ^ Воан, Саймон (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN  978-1-107-02482-3.
  43. ^ а б Брэкен, Майкл Б. (2013). Риск, случайность и причинная связь: изучение происхождения и лечения заболевания (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. стр.260–276. ISBN  978-0-300-18884-4.
  44. ^ Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN  978-0-822-94430-0.
  45. ^ Кларк, GM; Андерсон, Калифорния; Pettersson, FH; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль». Протоколы природы. 6 (2): 121–33. Дои:10.1038 / nprot.2010.182. ЧВК  3154648. PMID  21293453.
  46. ^ Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Рекомендации по исследованиям общегеномных ассоциаций». PLOS Genetics. 8 (7): e1002812. Дои:10.1371 / journal.pgen.1002812. ЧВК  3390399. PMID  22792080.
  47. ^ Карвер, Рональд П. (1978). «Доводы против проверки статистической значимости». Harvard Educational Review. 48 (3): 378–399. Дои:10.17763 / haer.48.3.t490261645281841.
  48. ^ Иоаннидис, Джон П. А. (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Медицина. 2 (8): e124. Дои:10.1371 / journal.pmed.0020124. ЧВК  1182327. PMID  16060722.
  49. ^ а б Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис неизбывных исследований». PeerJ. 5: e3544. Дои:10.7717 / peerj.3544. ЧВК  5502092. PMID  28698825.
  50. ^ а б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования. 9 (3): 241–9. Дои:10.1023 / B: AHSE.0000038173.00909.f6. PMID  15316274.
  51. ^ Pedhazur, Elazar J .; Шмелькин, Лиора П. (1991). Измерение, проектирование и анализ: комплексный подход (Студенческое изд.). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN  978-0-805-81063-9.
  52. ^ Стахел, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы: 87–114. Дои:10.1002 / 9781118865064.ch5. ISBN  9781118864975.
  53. ^ "Серия семинаров CSSME: аргументы в пользу п-значения и парадигма проверки значимости нулевой гипотезы (NHST) ". www.education.leeds.ac.uk. Педагогическая школа Университета Лидса. Получено 2016-12-01.
  54. ^ Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости». Научная медицина.
  55. ^ Вулстон, Крис (2015-03-05). «Психологический журнал запрещает ценности P». Природа. 519 (7541): 9. Дои:10.1038 / 519009f.
  56. ^ Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки». Новости науки. Получено 2016-12-01.
  57. ^ Антонакис, Джон (февраль 2017 г.). «О совершенствовании науки: от острых ощущений от открытий до политических последствий» (PDF). The Leadership Quarterly. 28 (1): 5–21. Дои:10.1016 / j.leaqua.2017.01.006.
  58. ^ а б c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик. 70 (2): 129–133. Дои:10.1080/00031305.2016.1154108.
  59. ^ Гарсиа-Перес, Мигель А. (05.10.2016). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы». Образовательные и психологические измерения. 77 (4): 631–662. Дои:10.1177/0013164416668232. ISSN  0013-1644. ЧВК  5991793. PMID  30034024.
  60. ^ Иоаннидис, Джон П. А .; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В. М .; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки». Природа Человеческое поведение. 1: 0021. Дои:10.1038 / s41562-016-0021.
  61. ^ Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости». Природа Человеческое поведение. 1 (1): 6–10. Дои:10.1038 / s41562-017-0189-z. PMID  30980045.
  62. ^ Чавла, Далмит (2017). "'Единый универсальный порог значений P в условиях обстрела ". Природа. Дои:10.1038 / природа.2017.22625.
  63. ^ Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа Человеческое поведение. 2 (1): 0224. Дои:10.1038 / s41562-017-0224-0. PMID  30980046.
  64. ^ Вайс, Стюарт. "Двигающиеся статистические цели науки". csicop.org. CSI. Получено 10 июля 2018.
  65. ^ МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID  30894741.
  66. ^ Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Путешествие в загробный мир» p <0,05"". Американский статистик. 73 (sup1): 1–19. Дои:10.1080/00031305.2019.1583913.

дальнейшее чтение

внешние ссылки