Статистическая значимость - Statistical significance

В статистическая проверка гипотез,^[1]^[2] результат Статистическая значимость когда это маловероятно, учитывая нулевая гипотеза.^[3]^[4] Точнее, исследование определяется уровень значимости, обозначаемый ${ displaystyle alpha}$ , - вероятность того, что исследование отвергнет нулевую гипотезу, учитывая, что нулевая гипотеза считалась верной;^[5] и п-ценность результата, ${ displaystyle p}$ , - вероятность получения не менее экстремального результата при условии, что нулевая гипотеза верна.^[6] Результат статистически значимый, по стандартам исследования, когда ${ displaystyle p leq alpha}$ .^[7]^[8]^[9]^[10]^[11]^[12]^[13] Уровень значимости для исследования выбирается до сбора данных и обычно составляет 5%.^[14] или намного ниже - в зависимости от области обучения.^[15]

В любой эксперимент или наблюдение это включает в себя рисование образец из Население, всегда есть вероятность, что наблюдаемый эффект произошел бы из-за ошибка выборки один.^[16]^[17] Но если п-значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции,^[1] тем самым отвергая нулевую гипотезу.^[18]

Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Период, термин значение здесь не имеет значения, и термин Статистическая значимость это не то же самое, что исследовательское, теоретическое или практическое значение.^[1]^[2]^[19]^[20] Например, термин клиническое значение относится к практическому значению лечебного эффекта.^[21]

История

Статистическое значение относится к 1700-м годам, в работах Джон Арбетнот и Пьер-Симон Лаплас, который вычислил п-ценность для соотношение полов человека при рождении, предполагая нулевую гипотезу о равной вероятности рождения мужского и женского пола; увидеть п-значение § История для подробностей.^[22]^[23]^[24]^[25]^[26]^[27]^[28]

В 1925 г. Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации. Статистические методы для научных работников.^[29]^[30]^[31] Фишер предложил вероятность один к двадцати (0,05) в качестве удобного порогового уровня для отклонения нулевой гипотезы.^[32] В статье 1933 г. Ежи Нейман и Эгон Пирсон назвал это отсечкой уровень значимости, которые они назвали ${ displaystyle alpha}$ . Они рекомендовали ${ displaystyle alpha}$ устанавливаться заранее, до сбора любых данных.^[32]^[33]

Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 г. Статистические методы и научные выводы, он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами.^[32]

Связанные понятия

Уровень значимости ${ displaystyle alpha}$ это порог для ${ displaystyle p}$ ниже которого нулевая гипотеза отклоняется, даже если по предположению она верна, и происходит что-то еще. Это значит, что ${ displaystyle alpha}$ также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна.^[5] Это также называется ложно положительный и ошибка типа I.

Иногда исследователи говорят о уровень уверенности $γ = (1 - α)$ вместо. Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна.^[34]^[35] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году.^[36]

Роль в статистической проверке гипотез

В двусторонний тест, область отклонения для уровня значимости

α = 0.05

разделен на оба конца выборочное распределение и составляет 5% площади под кривой (белые участки).

Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется для определения того, нулевая гипотеза следует отклонить или оставить. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось.^[37] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т.е. п-значение меньше заданного уровня значимости ${ displaystyle alpha}$ .

Чтобы определить, является ли результат статистически значимым, исследователь вычисляет п-значение, которое представляет собой вероятность наблюдения эффекта такой же величины или более экстремального при условии, что нулевая гипотеза верна.^[6]^[13] Нулевая гипотеза отклоняется, если п-значение меньше (или равно) заданного уровня, ${ displaystyle alpha}$ . ${ displaystyle alpha}$ также называется уровень значимости, и - вероятность отклонения нулевой гипотезы при условии, что она верна (a ошибка типа I ). Обычно устанавливается на уровне 5% или ниже.

Например, когда ${ displaystyle alpha}$ установлен на 5%, условная возможность из ошибка типа I, учитывая, что нулевая гипотеза верна, составляет 5%,^[38] а статистически значимый результат - это тот, где наблюдаемые п-значение меньше (или равно) 5%.^[39] При извлечении данных из образца это означает, что область отклонения составляет 5% от выборочное распределение.^[40] Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в односторонний тест, или разделены на обе стороны распределения, как в двусторонний тест, причем каждый хвост (или область отклонения) содержит 2,5% распределения.

Использование одностороннего теста зависит от того, исследовать вопрос или Альтернативная гипотеза указывает направление, например, является ли группа объектов тяжелее или успеваемость учащихся по оценке лучше.^[3] Двусторонний тест можно использовать, но он будет меньше. мощный чем односторонний тест, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше (5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний критерий.^[41] Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.

Пороги значимости в определенных областях

В определенных областях, таких как физика элементарных частиц и производство, статистическая значимость часто выражается в кратных среднеквадратичное отклонение или сигма (σ) из нормальное распределение, с более строгими порогами значимости (например, 5σ).^[42]^[43] Например, уверенность в бозон Хиггса существование частицы было основано на 5σ критерий, который соответствует п-значение примерно 1 из 3,5 миллиона.^[43]^[44]

В других областях научных исследований, таких как полногеномные ассоциации исследований, уровни значимости всего лишь 5×10⁻⁸ не редкость^[45]^[46]- поскольку количество выполненных тестов чрезвычайно велико.

Ограничения

Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщить о несущественных выводах.^[47] и не воспроизводится.^[48]^[49] Также существует разница между статистической и практической значимостью. Исследование, которое признано статистически значимым, не обязательно может иметь практическое значение.^[50]^[20]

Размер эффекта

Величина эффекта - это мера практической значимости исследования.^[50] Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с п-ценности. Мера размера эффекта количественно определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см. Коэна d ), коэффициент корреляции между двумя переменными или его площадь, и другие меры.^[51]

Воспроизводимость

Статистически значимый результат может быть непросто воспроизвести.^[49] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным.^[52]

Вызовы

Чрезмерное использование в некоторых журналах

Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога $α$ = 5%, на него слишком сильно полагались как на главный критерий достоверности гипотезы.^[53] Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В социальной психологии журнал Базовая и прикладная социальная психология запретил использование проверки значимости в опубликованных им статьях,^[54] требуя от авторов использовать другие меры для оценки гипотез и воздействия.^[55]^[56]

Другие редакторы, комментируя этот запрет, отметили: «Запрет публикации п-значения, как это недавно сделала базовая и прикладная социальная психология, не решат проблему, потому что они просто изучают ее симптом. Нет ничего плохого в проверке гипотез и п-значения сами по себе, если авторы, рецензенты и редакторы действий используют их правильно ».^[57] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или Байесовские факторы.^[58] С помощью Байесовская статистика может избежать уровней уверенности, но также требует дополнительных предположений,^[58] и не обязательно может улучшить практику статистического тестирования.^[59]

Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанаука.^[60]

Новое определение значения

В 2016 г. Американская статистическая ассоциация (ASA) опубликовала заявление на п-значения, говорящие о том, что «широко распространенное использование« статистической значимости »(обычно интерпретируется как«п ≤ 0,05 '), поскольку лицензия на утверждение научного открытия (или подразумеваемой истины) приводит к значительному искажению научного процесса ".^[58] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив п-значение порога статистической значимости от 0,05 до 0,005.^[61] Другие исследователи ответили, что введение более строгого порога значимости усугубит такие проблемы, как дноуглубительные работы; альтернативные предложения, таким образом, должны выбрать и обосновать гибкие п-значение пороговых значений перед сбором данных,^[62] или интерпретировать п-значения как непрерывные индексы, тем самым отбрасывая пороговые значения и статистическую значимость.^[63] Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать.^[64]

В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке.^[65] и Американская статистическая ассоциация опубликовала еще одно официальное заявление ^[66] декларируя (стр. 2):

На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пора полностью отказаться от термина «статистически значимый». Также не следует использовать такие варианты, как «существенно отличается», ${ displaystyle p leq 0,05}$ , "и" несущественные "сохраняются, выраженные словами, звездочками в таблице или каким-либо другим образом.

Смотрите также

A / B тестирование, ABX тест
Метод Фишера для объединения независимый тесты значение
Эффект поиска в другом месте
Проблема множественных сравнений
Размер образца
Заблуждение техасского снайпера (приводит примеры тестов, в которых уровень значимости был установлен слишком высоким)

использованная литература

^ ^а ^б ^c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.
^ ^а ^б Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.
^ ^а ^б Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.
^ «Букварь по статистической значимости». Математическое хранилище. 2017-04-30. Получено 2019-11-11.
^ ^а ^б Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R. Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. Дои:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.
^ ^а ^б «Статистическая проверка гипотез». www.dartmouth.edu. Получено 2019-11-11.
^ Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных». Труды Национальной академии наук. 110 (48): 19313–19317. Дои:10.1073 / pnas.1313476110. ЧВК 3845140. PMID 24218581. Получено 3 июля 2014.
^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях. Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.
^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк, США: Рутледж. С. 27–28.
^ Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты». Природные методы. 10 (11): 1041–1042. Дои:10.1038 / nmeth.2698. PMID 24344377.
^ Sham, Pak C .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетика. 15 (5): 335–346. Дои:10.1038 / nrg3706. PMID 24739678.
^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований. Нью-Йорк, США: Chapman & Hall / CRC. стр.167. ISBN 978-0412276309.
^ ^а ^б Деворе, Джей Л. (2011). Вероятность и статистика для инженерии и науки (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.
^ Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики. 3. Таузенд-Оукс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.
^ Спроул, Натали Л. (2002). "Проверка гипотезы". Справочник по методам исследования: Руководство для практиков и студентов социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр.49–64. ISBN 978-0-810-84486-5.
^ Бэбби, Эрл Р. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.
^ Фаэрти, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ для социальных служб (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.
^ Маккиллап, Стив (2006). «Вероятность помогает вам принять решение о ваших результатах». Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. стр.44–56. ISBN 978-0-521-54316-3.
^ Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.
^ ^а ^б Хупер, Питер. "Что такое P-значение?" (PDF). Университет Альберты, факультет математических и статистических наук. Получено 10 ноября, 2019.
^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения». Последипломный медицинский журнал. 77 (905): 201–204. Дои:10.1136 / pmj.77.905.201. ISSN 0032-5473. ЧВК 1741942. PMID 11222834.
^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении. Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.
^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF). Философские труды Лондонского королевского общества. 27 (325–336): 186–190. Дои:10.1098 / рстл.1710.0011.
^ Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
^ Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2
^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. стр.225–226. ISBN 978-0-67440341-3.
^ Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» Ч. Хейде и Э. Сенета, Springer, стр. 39–42, ISBN 978-0-387-95329-8
^ Халд, Андерс (1998), «Глава 4. Случайность или замысел: критерии значимости», История математической статистики с 1750 по 1930 гг., Wiley, стр. 65
^ Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Серия многомерных приложений. Восточный Сассекс, Великобритания: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.
^ Фишер, Рональд А. (1925). Статистические методы для научных работников. Эдинбург, Великобритания: Оливер и Бойд. стр.43. ISBN 978-0-050-02170-5.
^ Полетек, Фенна Х. (2001). «Формальные теории тестирования». Поведение при проверке гипотез. Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.
^ ^а ^б ^c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Планирование экспериментов и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.46–69. ISBN 978-0-521-00976-8.
^ Neyman, J .; Пирсон, Э. (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества. 29 (4): 492–510. Дои:10.1017 / S030500410001152X.
^ «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Баптист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?". Deutsches Ärzteblatt Online. 106 (19): 335–9. Дои:10.3238 / arztebl.2009.0335. ЧВК 2689604. PMID 19547734.
^ StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость
^ Нейман, Дж. (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей». Философские труды Королевского общества A. 236 (767): 333–380. Дои:10.1098 / рста.1937.0005. JSTOR 91337.
^ Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.
^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.
^ Маккиллап, Стив (2006). Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.32–38. ISBN 978-0-521-54316-3.
^ Здоровье, Дэвид (1995). Введение в экспериментальный план и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.
^ Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.
^ Воан, Саймон (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.
^ ^а ^б Брэкен, Майкл Б. (2013). Риск, случайность и причинная связь: изучение происхождения и лечения заболевания (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. стр.260–276. ISBN 978-0-300-18884-4.
^ Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.
^ Кларк, GM; Андерсон, Калифорния; Pettersson, FH; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль». Протоколы природы. 6 (2): 121–33. Дои:10.1038 / nprot.2010.182. ЧВК 3154648. PMID 21293453.
^ Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Рекомендации по исследованиям общегеномных ассоциаций». PLOS Genetics. 8 (7): e1002812. Дои:10.1371 / journal.pgen.1002812. ЧВК 3390399. PMID 22792080.
^ Карвер, Рональд П. (1978). «Доводы против проверки статистической значимости». Harvard Educational Review. 48 (3): 378–399. Дои:10.17763 / haer.48.3.t490261645281841.
^ Иоаннидис, Джон П. А. (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Медицина. 2 (8): e124. Дои:10.1371 / journal.pmed.0020124. ЧВК 1182327. PMID 16060722.
^ ^а ^б Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис неизбывных исследований». PeerJ. 5: e3544. Дои:10.7717 / peerj.3544. ЧВК 5502092. PMID 28698825.
^ ^а ^б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования. 9 (3): 241–9. Дои:10.1023 / B: AHSE.0000038173.00909.f6. PMID 15316274.
^ Pedhazur, Elazar J .; Шмелькин, Лиора П. (1991). Измерение, проектирование и анализ: комплексный подход (Студенческое изд.). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.
^ Стахел, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы: 87–114. Дои:10.1002 / 9781118865064.ch5. ISBN 9781118864975.
^ "Серия семинаров CSSME: аргументы в пользу п-значения и парадигма проверки значимости нулевой гипотезы (NHST) ". www.education.leeds.ac.uk. Педагогическая школа Университета Лидса. Получено 2016-12-01.
^ Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости». Научная медицина.
^ Вулстон, Крис (2015-03-05). «Психологический журнал запрещает ценности P». Природа. 519 (7541): 9. Дои:10.1038 / 519009f.
^ Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки». Новости науки. Получено 2016-12-01.
^ Антонакис, Джон (февраль 2017 г.). «О совершенствовании науки: от острых ощущений от открытий до политических последствий» (PDF). The Leadership Quarterly. 28 (1): 5–21. Дои:10.1016 / j.leaqua.2017.01.006.
^ ^а ^б ^c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик. 70 (2): 129–133. Дои:10.1080/00031305.2016.1154108.
^ Гарсиа-Перес, Мигель А. (05.10.2016). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы». Образовательные и психологические измерения. 77 (4): 631–662. Дои:10.1177/0013164416668232. ISSN 0013-1644. ЧВК 5991793. PMID 30034024.
^ Иоаннидис, Джон П. А .; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В. М .; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки». Природа Человеческое поведение. 1: 0021. Дои:10.1038 / s41562-016-0021.
^ Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости». Природа Человеческое поведение. 1 (1): 6–10. Дои:10.1038 / s41562-017-0189-z. PMID 30980045.
^ Чавла, Далмит (2017). "'Единый универсальный порог значений P в условиях обстрела ". Природа. Дои:10.1038 / природа.2017.22625.
^ Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа Человеческое поведение. 2 (1): 0224. Дои:10.1038 / s41562-017-0224-0. PMID 30980046.
^ Вайс, Стюарт. "Двигающиеся статистические цели науки". csicop.org. CSI. Получено 10 июля 2018.
^ МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID 30894741.
^ Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Путешествие в загробный мир» p <0,05"". Американский статистик. 73 (sup1): 1–19. Дои:10.1080/00031305.2019.1583913.

дальнейшее чтение

Лидия Денуорт, «Серьезная проблема: стандартные научные методы подвергаются критике. Что-нибудь изменится?», Scientific American, т. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. "Использование п ценности в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальный результаты способствовали иллюзии уверенность и [к] кризисы воспроизводимости во многих научные области. Растет решимость реформировать статистический анализ ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порога для определения «значимых» результатов »(стр. 63).
Зиляк, Стивен и Дейдра МакКлоски (2008), Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней. Анн-Арбор, Пресса Мичиганского университета, 2009. ISBN 978-0-472-07007-7. Отзывы и прием: (составитель Зиляк)
Томпсон, Брюс (2004). «Значимость» кризиса в психологии и образовании ». Социально-экономический журнал. 33 (5): 607–613. Дои:10.1016 / j.socec.2004.09.034.
Чоу, Сиу Л., (1996). Статистическая значимость: обоснование, валидность и полезность, Том 1 серии Введение в статистические методы, Sage Publications Ltd, ISBN 978-0-7619-5205-3 - утверждает, что статистическая значимость полезна при определенных обстоятельствах.
Клайн, Рекс, (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Нуццо, Регина (2014). Научный метод: статистические ошибки. Природа Vol. 506, стр. 150-152 (открытый доступ). Выявляет распространенные заблуждения относительно значения p.
Коэн, Джозеф (1994). [1]. Земля круглая (p <0,05). Американский психолог. Том 49, стр. 997-1003. Рассматривает проблемы со статистической проверкой нулевой гипотезы.
Амрейн, Валентин; Гренландия, Сандер; МакШейн, Блейк (20 марта 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID 30894741.

внешние ссылки

Статья "Самые ранние известные варианты использования некоторых слов математики (S) "содержит запись о значимости, которая предоставляет некоторую историческую информацию.
"Концепция проверки статистической значимости "(Февраль 1994 г.): статья Брюса Томпона, размещенная Информационным центром ERIC по оценке и оценке, Вашингтон, округ Колумбия.
"Что означает «статистически значимый» результат? "(без даты): статья из Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия.

[Sirkin-1] а ^б ^c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.

[Borror-2] а ^б Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.

[Myers_et_al-p65-3] а ^б Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.

[4] «Букварь по статистической значимости». Математическое хранилище. 2017-04-30. Получено 2019-11-11.

[Dalgaard-5] а ^б Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R. Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. Дои:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.

[:0-6] а ^б «Статистическая проверка гипотез». www.dartmouth.edu. Получено 2019-11-11.

[Johnson-7] Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных». Труды Национальной академии наук. 110 (48): 19313–19317. Дои:10.1073 / pnas.1313476110. ЧВК 3845140. PMID 24218581. Получено 3 июля 2014.

[Redmond_and_Colton-8] Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях. Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.

[Cumming-p27-9] Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк, США: Рутледж. С. 27–28.

[Krzywinski_and_Altman-10] Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты». Природные методы. 10 (11): 1041–1042. Дои:10.1038 / nmeth.2698. PMID 24344377.

[Sham_and_Purcell-11] Sham, Pak C .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетика. 15 (5): 335–346. Дои:10.1038 / nrg3706. PMID 24739678.

[Altman-12] Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований. Нью-Йорк, США: Chapman & Hall / CRC. стр.167. ISBN 978-0412276309.

[Devore-13] а ^б Деворе, Джей Л. (2011). Вероятность и статистика для инженерии и науки (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.

[Salkind-14] Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики. 3. Таузенд-Оукс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.

[Sproull-15] Спроул, Натали Л. (2002). "Проверка гипотезы". Справочник по методам исследования: Руководство для практиков и студентов социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр.49–64. ISBN 978-0-810-84486-5.

[Babbie2-16] Бэбби, Эрл Р. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.

[Faherty-17] Фаэрти, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ для социальных служб (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.

[McKillup-18] Маккиллап, Стив (2006). «Вероятность помогает вам принять решение о ваших результатах». Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. стр.44–56. ISBN 978-0-521-54316-3.

[Myers_et_al-p124-19] Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.

[:1-20] а ^б Хупер, Питер. "Что такое P-значение?" (PDF). Университет Альберты, факультет математических и статистических наук. Получено 10 ноября, 2019.

[21] Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения». Последипломный медицинский журнал. 77 (905): 201–204. Дои:10.1136 / pmj.77.905.201. ISSN 0032-5473. ЧВК 1741942. PMID 11222834.

[22] Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении. Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.

[23] Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF). Философские труды Лондонского королевского общества. 27 (325–336): 186–190. Дои:10.1098 / рстл.1710.0011.

[Conover1999-24] Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7

[Sprent1989-25] Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2

[26] Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. стр.225–226. ISBN 978-0-67440341-3.

[Bellhouse2001-27] Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» Ч. Хейде и Э. Сенета, Springer, стр. 39–42, ISBN 978-0-387-95329-8

[Hald1998-28] Халд, Андерс (1998), «Глава 4. Случайность или замысел: критерии значимости», История математической статистики с 1750 по 1930 гг., Wiley, стр. 65

[Cumming-29] Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Серия многомерных приложений. Восточный Сассекс, Великобритания: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.

[Fisher1925-30] Фишер, Рональд А. (1925). Статистические методы для научных работников. Эдинбург, Великобритания: Оливер и Бойд. стр.43. ISBN 978-0-050-02170-5.

[Poletiek-31] Полетек, Фенна Х. (2001). «Формальные теории тестирования». Поведение при проверке гипотез. Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.

[Quinn-32] а ^б ^c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Планирование экспериментов и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.46–69. ISBN 978-0-521-00976-8.

[Neyman-33] Neyman, J .; Пирсон, Э. (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества. 29 (4): 492–510. Дои:10.1017 / S030500410001152X.

[34] «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Баптист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?". Deutsches Ärzteblatt Online. 106 (19): 335–9. Дои:10.3238 / arztebl.2009.0335. ЧВК 2689604. PMID 19547734.

[35] StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость

[Neyman1937-36] Нейман, Дж. (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей». Философские труды Королевского общества A. 236 (767): 333–380. Дои:10.1098 / рста.1937.0005. JSTOR 91337.

[Meier-37] Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.

[Healy2009-38] Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.

[Healy2006-39] Маккиллап, Стив (2006). Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.32–38. ISBN 978-0-521-54316-3.

[Heath-40] Здоровье, Дэвид (1995). Введение в экспериментальный план и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.

[Hinton_2014-41] Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.

[Vaughan-42] Воан, Саймон (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.

[Bracken-43] а ^б Брэкен, Майкл Б. (2013). Риск, случайность и причинная связь: изучение происхождения и лечения заболевания (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. стр.260–276. ISBN 978-0-300-18884-4.

[franklin-44] Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.

[Clarke_et_al-45] Кларк, GM; Андерсон, Калифорния; Pettersson, FH; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль». Протоколы природы. 6 (2): 121–33. Дои:10.1038 / nprot.2010.182. ЧВК 3154648. PMID 21293453.

[Barsh_et_al-46] Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Рекомендации по исследованиям общегеномных ассоциаций». PLOS Genetics. 8 (7): e1002812. Дои:10.1371 / journal.pgen.1002812. ЧВК 3390399. PMID 22792080.

[Carver-47] Карвер, Рональд П. (1978). «Доводы против проверки статистической значимости». Harvard Educational Review. 48 (3): 378–399. Дои:10.17763 / haer.48.3.t490261645281841.

[Ioannidis-48] Иоаннидис, Джон П. А. (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Медицина. 2 (8): e124. Дои:10.1371 / journal.pmed.0020124. ЧВК 1182327. PMID 16060722.

[peerj.com-49] а ^б Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис неизбывных исследований». PeerJ. 5: e3544. Дои:10.7717 / peerj.3544. ЧВК 5502092. PMID 28698825.

[A_Visitor’s_Guide_to_Effect_Sizes-50] а ^б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования. 9 (3): 241–9. Дои:10.1023 / B: AHSE.0000038173.00909.f6. PMID 15316274.

[Pedhazur-51] Pedhazur, Elazar J .; Шмелькин, Лиора П. (1991). Измерение, проектирование и анализ: комплексный подход (Студенческое изд.). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.

[52] Стахел, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы: 87–114. Дои:10.1002 / 9781118865064.ch5. ISBN 9781118864975.

[53] "Серия семинаров CSSME: аргументы в пользу п-значения и парадигма проверки значимости нулевой гипотезы (NHST) ". www.education.leeds.ac.uk. Педагогическая школа Университета Лидса. Получено 2016-12-01.

[54] Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости». Научная медицина.

[55] Вулстон, Крис (2015-03-05). «Психологический журнал запрещает ценности P». Природа. 519 (7541): 9. Дои:10.1038 / 519009f.

[56] Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки». Новости науки. Получено 2016-12-01.

[57] Антонакис, Джон (февраль 2017 г.). «О совершенствовании науки: от острых ощущений от открытий до политических последствий» (PDF). The Leadership Quarterly. 28 (1): 5–21. Дои:10.1016 / j.leaqua.2017.01.006.

[Wasserstein_129–133-58] а ^б ^c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик. 70 (2): 129–133. Дои:10.1080/00031305.2016.1154108.

[59] Гарсиа-Перес, Мигель А. (05.10.2016). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы». Образовательные и психологические измерения. 77 (4): 631–662. Дои:10.1177/0013164416668232. ISSN 0013-1644. ЧВК 5991793. PMID 30034024.

[60] Иоаннидис, Джон П. А .; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В. М .; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки». Природа Человеческое поведение. 1: 0021. Дои:10.1038 / s41562-016-0021.

[61] Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости». Природа Человеческое поведение. 1 (1): 6–10. Дои:10.1038 / s41562-017-0189-z. PMID 30980045.

[62] Чавла, Далмит (2017). "'Единый универсальный порог значений P в условиях обстрела ". Природа. Дои:10.1038 / природа.2017.22625.

[63] Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа Человеческое поведение. 2 (1): 0224. Дои:10.1038 / s41562-017-0224-0. PMID 30980046.

[64] Вайс, Стюарт. "Двигающиеся статистические цели науки". csicop.org. CSI. Получено 10 июля 2018.

[65] МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID 30894741.

[Wasserstein2_129–133-66] Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Путешествие в загробный мир» p <0,05"". Американский статистик. 73 (sup1): 1–19. Дои:10.1080/00031305.2019.1583913.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]