Статистическая значимость - Statistical significance
В статистическая проверка гипотез,[1][2] результат Статистическая значимость когда это маловероятно, учитывая нулевая гипотеза.[3][4] Точнее, исследование определяется уровень значимости, обозначаемый , - вероятность того, что исследование отвергнет нулевую гипотезу, учитывая, что нулевая гипотеза считалась верной;[5] и п-ценность результата, , - вероятность получения не менее экстремального результата при условии, что нулевая гипотеза верна.[6] Результат статистически значимый, по стандартам исследования, когда .[7][8][9][10][11][12][13] Уровень значимости для исследования выбирается до сбора данных и обычно составляет 5%.[14] или намного ниже - в зависимости от области обучения.[15]
В любой эксперимент или наблюдение это включает в себя рисование образец из Население, всегда есть вероятность, что наблюдаемый эффект произошел бы из-за ошибка выборки один.[16][17] Но если п-значение наблюдаемого эффекта меньше (или равно) уровню значимости, исследователь может сделать вывод, что эффект отражает характеристики всей популяции,[1] тем самым отвергая нулевую гипотезу.[18]
Этот метод проверки статистической значимости результатов был разработан в начале 20 века. Период, термин значение здесь не имеет значения, и термин Статистическая значимость это не то же самое, что исследовательское, теоретическое или практическое значение.[1][2][19][20] Например, термин клиническое значение относится к практическому значению лечебного эффекта.[21]
История
Статистическое значение относится к 1700-м годам, в работах Джон Арбетнот и Пьер-Симон Лаплас, который вычислил п-ценность для соотношение полов человека при рождении, предполагая нулевую гипотезу о равной вероятности рождения мужского и женского пола; увидеть п-значение § История для подробностей.[22][23][24][25][26][27][28]
В 1925 г. Рональд Фишер выдвинул идею статистической проверки гипотез, которую он назвал «тестами значимости», в своей публикации. Статистические методы для научных работников.[29][30][31] Фишер предложил вероятность один к двадцати (0,05) в качестве удобного порогового уровня для отклонения нулевой гипотезы.[32] В статье 1933 г. Ежи Нейман и Эгон Пирсон назвал это отсечкой уровень значимости, которые они назвали . Они рекомендовали устанавливаться заранее, до сбора любых данных.[32][33]
Несмотря на его первоначальное предложение 0,05 в качестве уровня значимости, Фишер не намеревался фиксировать это пороговое значение. В своей публикации 1956 г. Статистические методы и научные выводы, он рекомендовал устанавливать уровни значимости в соответствии с конкретными обстоятельствами.[32]
Связанные понятия
Уровень значимости это порог для ниже которого нулевая гипотеза отклоняется, даже если по предположению она верна, и происходит что-то еще. Это значит, что также вероятность ошибочного отклонения нулевой гипотезы, если нулевая гипотеза верна.[5] Это также называется ложно положительный и ошибка типа I.
Иногда исследователи говорят о уровень уверенности γ = (1 − α) вместо. Это вероятность не отвергнуть нулевую гипотезу при условии, что она верна.[34][35] Уровни достоверности и доверительные интервалы были введены Нейманом в 1937 году.[36]
Роль в статистической проверке гипотез
Статистическая значимость играет ключевую роль в проверке статистических гипотез. Он используется для определения того, нулевая гипотеза следует отклонить или оставить. Нулевая гипотеза - это предположение по умолчанию, что ничего не произошло и не изменилось.[37] Для отклонения нулевой гипотезы наблюдаемый результат должен быть статистически значимым, т.е. п-значение меньше заданного уровня значимости .
Чтобы определить, является ли результат статистически значимым, исследователь вычисляет п-значение, которое представляет собой вероятность наблюдения эффекта такой же величины или более экстремального при условии, что нулевая гипотеза верна.[6][13] Нулевая гипотеза отклоняется, если п-значение меньше (или равно) заданного уровня, . также называется уровень значимости, и - вероятность отклонения нулевой гипотезы при условии, что она верна (a ошибка типа I ). Обычно устанавливается на уровне 5% или ниже.
Например, когда установлен на 5%, условная возможность из ошибка типа I, учитывая, что нулевая гипотеза верна, составляет 5%,[38] а статистически значимый результат - это тот, где наблюдаемые п-значение меньше (или равно) 5%.[39] При извлечении данных из образца это означает, что область отклонения составляет 5% от выборочное распределение.[40] Эти 5% могут быть отнесены к одной стороне выборочного распределения, как в односторонний тест, или разделены на обе стороны распределения, как в двусторонний тест, причем каждый хвост (или область отклонения) содержит 2,5% распределения.
Использование одностороннего теста зависит от того, исследовать вопрос или Альтернативная гипотеза указывает направление, например, является ли группа объектов тяжелее или успеваемость учащихся по оценке лучше.[3] Двусторонний тест можно использовать, но он будет меньше. мощный чем односторонний тест, потому что область отклонения для одностороннего теста сосредоточена на одном конце нулевого распределения и в два раза больше (5% против 2,5%) каждой области отклонения для двустороннего теста. В результате нулевая гипотеза может быть отклонена с менее экстремальным результатом, если использовался односторонний критерий.[41] Односторонний тест более эффективен, чем двусторонний, только если указанное направление альтернативной гипотезы верно. Однако если это неверно, то односторонний тест не имеет силы.
Пороги значимости в определенных областях
В определенных областях, таких как физика элементарных частиц и производство, статистическая значимость часто выражается в кратных среднеквадратичное отклонение или сигма (σ) из нормальное распределение, с более строгими порогами значимости (например, 5σ).[42][43] Например, уверенность в бозон Хиггса существование частицы было основано на 5σ критерий, который соответствует п-значение примерно 1 из 3,5 миллиона.[43][44]
В других областях научных исследований, таких как полногеномные ассоциации исследований, уровни значимости всего лишь 5×10−8 не редкость[45][46]- поскольку количество выполненных тестов чрезвычайно велико.
Ограничения
Исследователи, сосредоточенные исключительно на том, являются ли их результаты статистически значимыми, могут сообщить о несущественных выводах.[47] и не воспроизводится.[48][49] Также существует разница между статистической и практической значимостью. Исследование, которое признано статистически значимым, не обязательно может иметь практическое значение.[50][20]
Размер эффекта
Величина эффекта - это мера практической значимости исследования.[50] Статистически значимый результат может иметь слабый эффект. Чтобы оценить значимость результатов для исследований, исследователям рекомендуется всегда сообщать размер эффекта вместе с п-ценности. Мера размера эффекта количественно определяет силу эффекта, например, расстояние между двумя средними в единицах стандартного отклонения (см. Коэна d ), коэффициент корреляции между двумя переменными или его площадь, и другие меры.[51]
Воспроизводимость
Статистически значимый результат может быть непросто воспроизвести.[49] В частности, некоторые статистически значимые результаты на самом деле будут ложноположительными. Каждая неудачная попытка воспроизвести результат увеличивает вероятность того, что результат был ложноположительным.[52]
Вызовы
Чрезмерное использование в некоторых журналах
Начиная с 2010-х годов, некоторые журналы начали сомневаться в том, что проверка значимости, особенно с использованием порога α= 5%, на него слишком сильно полагались как на главный критерий достоверности гипотезы.[53] Некоторые журналы рекомендовали авторам проводить более подробный анализ, чем просто тест статистической значимости. В социальной психологии журнал Базовая и прикладная социальная психология запретил использование проверки значимости в опубликованных им статьях,[54] требуя от авторов использовать другие меры для оценки гипотез и воздействия.[55][56]
Другие редакторы, комментируя этот запрет, отметили: «Запрет публикации п-значения, как это недавно сделала базовая и прикладная социальная психология, не решат проблему, потому что они просто изучают ее симптом. Нет ничего плохого в проверке гипотез и п-значения сами по себе, если авторы, рецензенты и редакторы действий используют их правильно ».[57] Некоторые статистики предпочитают использовать альтернативные меры доказательства, такие как отношения правдоподобия или Байесовские факторы.[58] С помощью Байесовская статистика может избежать уровней уверенности, но также требует дополнительных предположений,[58] и не обязательно может улучшить практику статистического тестирования.[59]
Широко распространенное злоупотребление статистической значимостью представляет собой важную тему исследований в метанаука.[60]
Новое определение значения
В 2016 г. Американская статистическая ассоциация (ASA) опубликовала заявление на п-значения, говорящие о том, что «широко распространенное использование« статистической значимости »(обычно интерпретируется как«п ≤ 0,05 '), поскольку лицензия на утверждение научного открытия (или подразумеваемой истины) приводит к значительному искажению научного процесса ".[58] В 2017 году группа из 72 авторов предложила улучшить воспроизводимость, изменив п-значение порога статистической значимости от 0,05 до 0,005.[61] Другие исследователи ответили, что введение более строгого порога значимости усугубит такие проблемы, как дноуглубительные работы; альтернативные предложения, таким образом, должны выбрать и обосновать гибкие п-значение пороговых значений перед сбором данных,[62] или интерпретировать п-значения как непрерывные индексы, тем самым отбрасывая пороговые значения и статистическую значимость.[63] Кроме того, изменение на 0,005 увеличит вероятность ложноотрицательных результатов, в результате чего изучаемый эффект реален, но тест не может его показать.[64]
В 2019 году более 800 статистиков и ученых подписали сообщение, призывающее отказаться от термина «статистическая значимость» в науке.[65] и Американская статистическая ассоциация опубликовала еще одно официальное заявление [66] декларируя (стр. 2):
На основании нашего обзора статей в этом специальном выпуске и более широкой литературы мы пришли к выводу, что пора полностью отказаться от термина «статистически значимый». Также не следует использовать такие варианты, как «существенно отличается»,, "и" несущественные "сохраняются, выраженные словами, звездочками в таблице или каким-либо другим образом.
Смотрите также
- A / B тестирование, ABX тест
- Метод Фишера для объединения независимый тесты значение
- Эффект поиска в другом месте
- Проблема множественных сравнений
- Размер образца
- Заблуждение техасского снайпера (приводит примеры тестов, в которых уровень значимости был установлен слишком высоким)
использованная литература
- ^ а б c Сиркин, Р. Марк (2005). «Двухвыборочные t-тесты». Статистика для социальных наук (3-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 271–316. ISBN 978-1-412-90546-6.
- ^ а б Боррор, Конни М. (2009). «Принятие статистических решений». Справочник сертифицированного инженера по качеству (3-е изд.). Милуоки, Висконсин: ASQ Quality Press. С. 418–472. ISBN 978-0-873-89745-7.
- ^ а б Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Разработка основ проверки гипотез с использованием биномиального распределения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 65–90. ISBN 978-0-805-86431-1.
- ^ «Букварь по статистической значимости». Математическое хранилище. 2017-04-30. Получено 2019-11-11.
- ^ а б Далгаард, Питер (2008). «Мощность и расчет размера выборки». Вводная статистика с R. Статистика и вычисления. Нью-Йорк: Спрингер. С. 155–56. Дои:10.1007/978-0-387-79054-1_9. ISBN 978-0-387-79053-4.
- ^ а б «Статистическая проверка гипотез». www.dartmouth.edu. Получено 2019-11-11.
- ^ Джонсон, Вален Э. (9 октября 2013 г.). «Пересмотренные стандарты статистических данных». Труды Национальной академии наук. 110 (48): 19313–19317. Дои:10.1073 / pnas.1313476110. ЧВК 3845140. PMID 24218581. Получено 3 июля 2014.
- ^ Редмонд, Кэрол; Колтон, Теодор (2001). «Клиническая значимость против статистической значимости». Биостатистика в клинических исследованиях. Серия ссылок Wiley по биостатистике (3-е изд.). Западный Суссекс, Соединенное Королевство: John Wiley & Sons Ltd., стр. 35–36. ISBN 978-0-471-82211-0.
- ^ Камминг, Джефф (2012). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Нью-Йорк, США: Рутледж. С. 27–28.
- ^ Кшивинский, Мартин; Альтман, Наоми (30 октября 2013 г.). «Важные моменты: значимость, значения P и t-тесты». Природные методы. 10 (11): 1041–1042. Дои:10.1038 / nmeth.2698. PMID 24344377.
- ^ Sham, Pak C .; Перселл, Шон М. (17 апреля 2014 г.). «Статистическая мощность и проверка значимости в крупномасштабных генетических исследованиях». Природа Обзоры Генетика. 15 (5): 335–346. Дои:10.1038 / nrg3706. PMID 24739678.
- ^ Альтман, Дуглас Г. (1999). Практическая статистика для медицинских исследований. Нью-Йорк, США: Chapman & Hall / CRC. стр.167. ISBN 978-0412276309.
- ^ а б Деворе, Джей Л. (2011). Вероятность и статистика для инженерии и науки (8-е изд.). Бостон, Массачусетс: обучение Cengage. С. 300–344. ISBN 978-0-538-73352-6.
- ^ Крапаро, Роберт М. (2007). "Уровень значимости". В Salkind, Нил Дж. (Ред.). Энциклопедия измерения и статистики. 3. Таузенд-Оукс, Калифорния: SAGE Publications. С. 889–891. ISBN 978-1-412-91611-0.
- ^ Спроул, Натали Л. (2002). "Проверка гипотезы". Справочник по методам исследования: Руководство для практиков и студентов социальных наук (2-е изд.). Лэнхэм, Мэриленд: Scarecrow Press, Inc., стр.49–64. ISBN 978-0-810-84486-5.
- ^ Бэбби, Эрл Р. (2013). «Логика выборки». Практика социальных исследований (13-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 185–226. ISBN 978-1-133-04979-1.
- ^ Фаэрти, Винсент (2008). «Вероятность и статистическая значимость». Сострадательная статистика: прикладной количественный анализ для социальных служб (с упражнениями и инструкциями в SPSS) (1-е изд.). Таузенд-Окс, Калифорния: SAGE Publications, Inc., стр. 127–138. ISBN 978-1-412-93982-9.
- ^ Маккиллап, Стив (2006). «Вероятность помогает вам принять решение о ваших результатах». Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Соединенное Королевство: Издательство Кембриджского университета. стр.44–56. ISBN 978-0-521-54316-3.
- ^ Майерс, Джером Л .; Ну, Арнольд Д .; Лорч-младший, Роберт Ф. (2010). «Распределение t и его приложения». Дизайн исследования и статистический анализ (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 124–153. ISBN 978-0-805-86431-1.
- ^ а б Хупер, Питер. "Что такое P-значение?" (PDF). Университет Альберты, факультет математических и статистических наук. Получено 10 ноября, 2019.
- ^ Leung, W.-C. (2001-03-01). «Баланс статистической и клинической значимости при оценке эффектов лечения». Последипломный медицинский журнал. 77 (905): 201–204. Дои:10.1136 / pmj.77.905.201. ISSN 0032-5473. ЧВК 1741942. PMID 11222834.
- ^ Брайан, Эрик; Джейссон, Мари (2007). «Физико-теология и математика (1710–1794)». Происхождение соотношения полов человека при рождении. Springer Science & Business Media. С. 1–25. ISBN 978-1-4020-6036-6.
- ^ Джон Арбетнот (1710). «Аргумент в пользу Божественного провидения, взятый из постоянной закономерности, наблюдаемой в рождении обоих полов» (PDF). Философские труды Лондонского королевского общества. 27 (325–336): 186–190. Дои:10.1098 / рстл.1710.0011.
- ^ Коновер, У.Дж. (1999), "Глава 3.4: Знаковый тест", Практическая непараметрическая статистика (Третье изд.), Wiley, стр. 157–176, ISBN 978-0-471-16068-7
- ^ Спрент, П. (1989), Прикладные методы непараметрической статистики (Второе изд.), Chapman & Hall, ISBN 978-0-412-44980-2
- ^ Стиглер, Стивен М. (1986). История статистики: измерение неопределенности до 1900 г.. Издательство Гарвардского университета. стр.225–226. ISBN 978-0-67440341-3.
- ^ Беллхаус, П. (2001), «Джон Арбетнот», в книге «Статистики веков» Ч. Хейде и Э. Сенета, Springer, стр. 39–42, ISBN 978-0-387-95329-8
- ^ Халд, Андерс (1998), «Глава 4. Случайность или замысел: критерии значимости», История математической статистики с 1750 по 1930 гг., Wiley, стр. 65
- ^ Камминг, Джефф (2011). «От значимости нулевой гипотезы до величины эффекта тестирования». Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ. Серия многомерных приложений. Восточный Сассекс, Великобритания: Рутледж. С. 21–52. ISBN 978-0-415-87968-2.
- ^ Фишер, Рональд А. (1925). Статистические методы для научных работников. Эдинбург, Великобритания: Оливер и Бойд. стр.43. ISBN 978-0-050-02170-5.
- ^ Полетек, Фенна Х. (2001). «Формальные теории тестирования». Поведение при проверке гипотез. Очерки когнитивной психологии (1-е изд.). Восточный Сассекс, Соединенное Королевство: Psychology Press. С. 29–48. ISBN 978-1-841-69159-6.
- ^ а б c Куинн, Джеффри Р .; Кео, Майкл Дж. (2002). Планирование экспериментов и анализ данных для биологов (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.46–69. ISBN 978-0-521-00976-8.
- ^ Neyman, J .; Пирсон, Э. (1933). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества. 29 (4): 492–510. Дои:10.1017 / S030500410001152X.
- ^ «Выводы о статистической значимости возможны с помощью доверительного интервала. Если доверительный интервал не включает значение нулевого эффекта, можно предположить, что имеется статистически значимый результат». Прель, Жан-Баптист дю; Хоммель, Герхард; Рериг, Бернд; Блеттнер, Мария (2009). "Доверительный интервал или P-значение?". Deutsches Ärzteblatt Online. 106 (19): 335–9. Дои:10.3238 / arztebl.2009.0335. ЧВК 2689604. PMID 19547734.
- ^ StatNews # 73: перекрывающиеся доверительные интервалы и статистическая значимость
- ^ Нейман, Дж. (1937). «Очерк теории статистического оценивания на основе классической теории вероятностей». Философские труды Королевского общества A. 236 (767): 333–380. Дои:10.1098 / рста.1937.0005. JSTOR 91337.
- ^ Мейер, Кеннет Дж .; Brudney, Джеффри Л .; Ботэ, Джон (2011). Прикладная статистика для государственного и некоммерческого управления (3-е изд.). Бостон, Массачусетс: обучение Cengage. С. 189–209. ISBN 978-1-111-34280-7.
- ^ Хили, Джозеф Ф. (2009). Основы статистики: инструмент социальных исследований (2-е изд.). Бельмонт, Калифорния: Cengage Learning. С. 177–205. ISBN 978-0-495-60143-2.
- ^ Маккиллап, Стив (2006). Разъяснения статистики: вводное руководство для ученых-медиков (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. стр.32–38. ISBN 978-0-521-54316-3.
- ^ Здоровье, Дэвид (1995). Введение в экспериментальный план и статистику для биологии (1-е изд.). Бостон, Массачусетс: CRC Press. С. 123–154. ISBN 978-1-857-28132-3.
- ^ Хинтон, Перри Р. (2010). «Значение, ошибка и сила». Статистика объяснена (3-е изд.). Нью-Йорк, Нью-Йорк: Рутледж. С. 79–90. ISBN 978-1-848-72312-2.
- ^ Воан, Саймон (2013). Научный вывод: обучение на основе данных (1-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. С. 146–152. ISBN 978-1-107-02482-3.
- ^ а б Брэкен, Майкл Б. (2013). Риск, случайность и причинная связь: изучение происхождения и лечения заболевания (1-е изд.). Нью-Хейвен, Коннектикут: Издательство Йельского университета. стр.260–276. ISBN 978-0-300-18884-4.
- ^ Франклин, Аллан (2013). «Пролог: подъем сигм». Сдвиг стандартов: эксперименты по физике элементарных частиц в двадцатом веке (1-е изд.). Питтсбург, Пенсильвания: Университет Питтсбурга Press. стр. Ii – Iii. ISBN 978-0-822-94430-0.
- ^ Кларк, GM; Андерсон, Калифорния; Pettersson, FH; Кардон, Л. Р.; Моррис, AP; Зондерван, К.Т. (6 февраля 2011 г.). «Базовый статистический анализ в генетических исследованиях случай-контроль». Протоколы природы. 6 (2): 121–33. Дои:10.1038 / nprot.2010.182. ЧВК 3154648. PMID 21293453.
- ^ Барш, GS; Копенгейвер, ВП; Гибсон, G; Уильямс, С.М. (5 июля 2012 г.). «Рекомендации по исследованиям общегеномных ассоциаций». PLOS Genetics. 8 (7): e1002812. Дои:10.1371 / journal.pgen.1002812. ЧВК 3390399. PMID 22792080.
- ^ Карвер, Рональд П. (1978). «Доводы против проверки статистической значимости». Harvard Educational Review. 48 (3): 378–399. Дои:10.17763 / haer.48.3.t490261645281841.
- ^ Иоаннидис, Джон П. А. (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Медицина. 2 (8): e124. Дои:10.1371 / journal.pmed.0020124. ЧВК 1182327. PMID 16060722.
- ^ а б Амрейн, Валентин; Корнер-Нивергельт, Франци; Рот, Тобиас (2017). «Земля плоская (p> 0,05): пороги значимости и кризис неизбывных исследований». PeerJ. 5: e3544. Дои:10.7717 / peerj.3544. ЧВК 5502092. PMID 28698825.
- ^ а б Ходжат, Мохаммадреза; Сюй, Банда (2004). «Путеводитель по размерам эффекта». Достижения в области медицинского образования. 9 (3): 241–9. Дои:10.1023 / B: AHSE.0000038173.00909.f6. PMID 15316274.
- ^ Pedhazur, Elazar J .; Шмелькин, Лиора П. (1991). Измерение, проектирование и анализ: комплексный подход (Студенческое изд.). Нью-Йорк, Нью-Йорк: Психология Пресс. С. 180–210. ISBN 978-0-805-81063-9.
- ^ Стахел, Вернер (2016). «Статистическая проблема воспроизводимости». Воспроизводимость принципов, проблем, практик и перспектив: принципы, проблемы, практики и перспективы: 87–114. Дои:10.1002 / 9781118865064.ch5. ISBN 9781118864975.
- ^ "Серия семинаров CSSME: аргументы в пользу п-значения и парадигма проверки значимости нулевой гипотезы (NHST) ". www.education.leeds.ac.uk. Педагогическая школа Университета Лидса. Получено 2016-12-01.
- ^ Новелла, Стивен (25 февраля 2015 г.). «Психологический журнал запрещает тестирование значимости». Научная медицина.
- ^ Вулстон, Крис (2015-03-05). «Психологический журнал запрещает ценности P». Природа. 519 (7541): 9. Дои:10.1038 / 519009f.
- ^ Зигфрид, Том (2015-03-17). «Запрет на ценность P: маленький шаг для журнала, гигантский скачок для науки». Новости науки. Получено 2016-12-01.
- ^ Антонакис, Джон (февраль 2017 г.). «О совершенствовании науки: от острых ощущений от открытий до политических последствий» (PDF). The Leadership Quarterly. 28 (1): 5–21. Дои:10.1016 / j.leaqua.2017.01.006.
- ^ а б c Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик. 70 (2): 129–133. Дои:10.1080/00031305.2016.1154108.
- ^ Гарсиа-Перес, Мигель А. (05.10.2016). «Не свидетельствуй о ложном свидетельстве против проверки значимости нулевой гипотезы». Образовательные и психологические измерения. 77 (4): 631–662. Дои:10.1177/0013164416668232. ISSN 0013-1644. ЧВК 5991793. PMID 30034024.
- ^ Иоаннидис, Джон П. А .; Уэр, Дженнифер Дж .; Вагенмакерс, Эрик-Ян; Симонсон, Ури; Чемберс, Кристофер Д.; Кнопка, Кэтрин С .; Бишоп, Дороти В. М .; Носек, Брайан А .; Мунафо, Маркус Р. (январь 2017 г.). «Манифест воспроизводимой науки». Природа Человеческое поведение. 1: 0021. Дои:10.1038 / s41562-016-0021.
- ^ Бенджамин, Даниэль; и другие. (2018). «Новое определение статистической значимости». Природа Человеческое поведение. 1 (1): 6–10. Дои:10.1038 / s41562-017-0189-z. PMID 30980045.
- ^ Чавла, Далмит (2017). "'Единый универсальный порог значений P в условиях обстрела ". Природа. Дои:10.1038 / природа.2017.22625.
- ^ Амрейн, Валентин; Гренландия, Сандер (2017). «Удалите, а не переопределите статистическую значимость». Природа Человеческое поведение. 2 (1): 0224. Дои:10.1038 / s41562-017-0224-0. PMID 30980046.
- ^ Вайс, Стюарт. "Двигающиеся статистические цели науки". csicop.org. CSI. Получено 10 июля 2018.
- ^ МакШейн, Блейк; Гренландия, Сандер; Амрейн, Валентин (март 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID 30894741.
- ^ Вассерштейн, Рональд Л .; Schirm, Allen L .; Лазар, Николь А. (20 марта 2019 г.). «Путешествие в загробный мир» p <0,05"". Американский статистик. 73 (sup1): 1–19. Дои:10.1080/00031305.2019.1583913.
дальнейшее чтение
- Лидия Денуорт, «Серьезная проблема: стандартные научные методы подвергаются критике. Что-нибудь изменится?», Scientific American, т. 321, нет. 4 (октябрь 2019 г.), стр. 62–67. "Использование п ценности в течение почти столетия [с 1925 г.] для определения статистической значимости экспериментальный результаты способствовали иллюзии уверенность и [к] кризисы воспроизводимости во многих научные области. Растет решимость реформировать статистический анализ ... Некоторые [исследователи] предлагают изменить статистические методы, тогда как другие отказались бы от порога для определения «значимых» результатов »(стр. 63).
- Зиляк, Стивен и Дейдра МакКлоски (2008), Культ статистической значимости: как стандартная ошибка стоит нам рабочих мест, правосудия и жизней. Анн-Арбор, Пресса Мичиганского университета, 2009. ISBN 978-0-472-07007-7. Отзывы и прием: (составитель Зиляк)
- Томпсон, Брюс (2004). «Значимость» кризиса в психологии и образовании ». Социально-экономический журнал. 33 (5): 607–613. Дои:10.1016 / j.socec.2004.09.034.
- Чоу, Сиу Л., (1996). Статистическая значимость: обоснование, валидность и полезность, Том 1 серии Введение в статистические методы, Sage Publications Ltd, ISBN 978-0-7619-5205-3 - утверждает, что статистическая значимость полезна при определенных обстоятельствах.
- Клайн, Рекс, (2004). Помимо тестирования значимости: реформирование методов анализа данных в поведенческих исследованиях Вашингтон, округ Колумбия: Американская психологическая ассоциация.
- Нуццо, Регина (2014). Научный метод: статистические ошибки. Природа Vol. 506, стр. 150-152 (открытый доступ). Выявляет распространенные заблуждения относительно значения p.
- Коэн, Джозеф (1994). [1]. Земля круглая (p <0,05). Американский психолог. Том 49, стр. 997-1003. Рассматривает проблемы со статистической проверкой нулевой гипотезы.
- Амрейн, Валентин; Гренландия, Сандер; МакШейн, Блейк (20 марта 2019 г.). «Ученые восстают против статистической значимости». Природа. 567 (7748): 305–307. Дои:10.1038 / d41586-019-00857-9. PMID 30894741.
внешние ссылки
- Статья "Самые ранние известные варианты использования некоторых слов математики (S) "содержит запись о значимости, которая предоставляет некоторую историческую информацию.
- "Концепция проверки статистической значимости "(Февраль 1994 г.): статья Брюса Томпона, размещенная Информационным центром ERIC по оценке и оценке, Вашингтон, округ Колумбия.
- "Что означает «статистически значимый» результат? "(без даты): статья из Службы статистической оценки Университета Джорджа Мейсона, Вашингтон, округ Колумбия.