Почему большинство опубликованных результатов исследований ложны - Why Most Published Research Findings Are False

"Почему большинство опубликованных результатов исследований ложны"[1] это эссе 2005 года, написанное Джон Иоаннидис, профессор Стэнфордская школа медицины, и опубликовано в PLOS Медицина. Это считается основополагающим в области метанаука.

В своей статье Иоаннидис утверждал, что большое количество, если не большинство, опубликованных медицинские исследования статьи содержат результаты, которые не могут быть воспроизведен. Проще говоря, в эссе говорится, что ученые используют проверка гипотезы чтобы определить, значимы ли научные открытия. "Значимость" формализована с точки зрения вероятности и одного формализованного расчета ("Значение P ") упоминается в научной литературе как механизм проверки. Иоаннидис высказал предположения о том, как люди выполняют и сообщают об этих тестах, а затем он построил статистическую модель, которая показывает, что большинство опубликованных результатов ложноположительные результаты.

Аргумент

Предположим, что в данной области науки существует известная базовая вероятность того, что результат верен, обозначенный . При проведении исследования вероятность получения положительного результата составляет . Учитывая эти два фактора, мы хотим вычислить условная возможность , который известен как положительная прогностическая ценность (PPV). Теорема Байеса позволяет нам вычислить PPV как:

куда это частота ошибок типа I и это частота ошибок II типа; то статистическая мощность является . В большинстве научных исследований принято желать и . Если мы предположим для данной области науки, то мы можем вычислить PPV для различных значений и :

0.10.20.30.40.50.60.70.80.9
0.010.910.900.890.870.850.820.770.690.53
0.020.830.820.800.770.740.690.630.530.36
0.030.770.750.720.690.650.600.530.430.27
0.040.710.690.660.630.580.530.450.360.22
0.050.670.640.610.570.530.470.400.310.18

Однако простая формула для PPV, полученная из теоремы Байеса, не учитывает предвзятость в дизайне исследования или отчетности. При наличии предвзятости , PPV определяется более общим выражением:

Введение предвзятости будет иметь тенденцию снижать PPV; в крайнем случае, когда систематическая ошибка исследования максимальна, . Даже если исследование соответствует эталонным требованиям для и , и свободен от предвзятости, остается 36% вероятность того, что документ, сообщающий о положительном результате, будет неверным; если базовая вероятность истинного результата ниже, то это также снизит PPV. Кроме того, есть убедительные доказательства того, что средняя статистическая мощность исследования во многих областях науки значительно ниже контрольного уровня 0,8.[2][3][4]

Учитывая реальность предвзятости, низкой статистической мощности и небольшого количества истинных гипотез, Иоаннидис приходит к выводу, что большинство исследований в различных областях науки, вероятно, будут давать ложные результаты.

Следствия

В дополнение к основному результату Иоаннидис перечисляет шесть следствий для факторов, которые могут повлиять на надежность опубликованных исследований:

  1. Чем меньше исследований, проводимых в научной области, тем меньше вероятность того, что результаты исследований будут правдой.
  2. Чем меньше размеры эффекта в научной сфере менее вероятно, что результаты исследования будут правдой.
  3. Чем больше количество и тем меньше выбор проверенные отношения в научной сфере менее вероятно, что результаты исследования будут правдой.
  4. Чем больше гибкость в конструкции, определения, результаты и методы анализа в научной области, тем меньше вероятность того, что результаты исследования будут правдой.
  5. Чем больше финансовые и другие интересы и предрассудки в научной сфере менее вероятно, что результаты исследования будут правдой.
  6. Чем горячее научная область (в которой задействовано больше научных коллективов), тем меньше вероятность того, что результаты исследования будут правдой.

Прием и влияние

Несмотря на скептицизм по поводу крайних заявлений, сделанных в статье, более широкие аргументы и предупреждения Иоаннидиса были приняты большим количеством исследователей.[5] Рост метанаука и признание научного кризис репликации повысили авторитет статьи и привели к призывам к методологическим реформам в научных исследованиях.[6][7]

В комментариях и технических ответах статистики Гудман и Гренландия выявили несколько ошибок в модели Иоаннидиса.[8][9] Использование Иоаннидисом драматических и преувеличенных формулировок, что он «доказал», что большинство утверждений о результатах исследований ложны и что «большинство результатов исследований ложны для большинство исследовательских проектов и для большинство полей"[курсив добавлен] был отклонен, но все же они согласились с выводами и рекомендациями его статьи. Биостатисты Ягер и Лик раскритиковали модель как основанную на оправданных, но произвольных предположениях, а не на эмпирических данных, и провели собственное исследование, в ходе которого было подсчитано, что ложные процент положительных результатов в биомедицинских исследованиях оценивается примерно в 14%, а не выше 50%, как утверждал Ионнидис.[10] Их статья была опубликована в специальном выпуске журнала за 2014 год. Биостатистика наряду с расширенной поддерживающей критикой со стороны других статистиков. Лик резюмировал ключевые моменты согласия следующим образом: когда мы говорим о количестве ложных открытий с научной точки зрения, нужно приводить данные; существуют различные подходы для оценки уровня ложных открытий с научной точки зрения; и «весьма маловероятно, что большинство опубликованных исследований является ложным», но это, вероятно, зависит от определения «большинства» и «ложных».[11] Статистик Ульрих Шиммик подчеркнул важность эмпирической основы для моделей, отметив, что сообщаемый уровень ложных открытий в некоторых областях науки не является фактическим уровнем открытия, поскольку незначительные результаты редко сообщаются. Теоретическая модель Иоаннидиса не учитывает этого, но когда статистический метод («z-кривая») для оценки количества неопубликованных несущественных результатов применяется к двум примерам, частота ложных срабатываний составляет от 8% до 17%, не более 50%.[12] Несмотря на эти недостатки, тем не менее, есть общее согласие с проблемой и рекомендациями, которые обсуждает Иоаннидис, однако его тон был описан как «драматический» и «тревожно вводящий в заблуждение», что создает риск излишнего скептицизма или цинизма людей в отношении науки.[8][13]

Долгосрочным результатом этой работы стало осознание основных движущих сил высокого уровня ложноположительных результатов в клинической медицине и биомедицинских исследованиях, а также усилия журналов и ученых по их снижению. Иоаннидис переформулировал эти драйверы в 2016 году как:[14]

  • Индивидуальный исследователь, ограниченный выборкой небольшого размера
  • Без предварительной регистрации проверяемых гипотез
  • Постфактум выбор гипотез с лучшими значениями P
  • Требуется только P <0,05
  • Нет репликации
  • Нет обмена данными

Смотрите также

Рекомендации

  1. ^ Иоаннидис, Джон П. А. (2005). «Почему большинство опубликованных результатов исследований ложны». PLOS Медицина. 2 (8): e124. Дои:10.1371 / journal.pmed.0020124. ISSN  1549-1277. ЧВК  1182327. PMID  16060722.
  2. ^ Кнопка, Кэтрин С .; Иоаннидис, Джон П. А .; Мокрыш, Клэр; Носек, Брайан А .; Флинт, Джонатан; Робинсон, Эмма С. Дж .; Мунафо, Маркус Р. (2013). «Сбой питания: почему небольшой размер выборки подрывает надежность нейробиологии». Обзоры природы Неврология. 14 (5): 365–376. Дои:10.1038 / номер 3475. ISSN  1471-0048. PMID  23571845.
  3. ^ Szucs, Denes; Иоаннидис, Джон П. А. (02.03.2017). «Эмпирическая оценка опубликованных величин и мощности эффекта в недавней литературе по когнитивной нейробиологии и психологии». PLOS Биология. 15 (3): e2000797. Дои:10.1371 / journal.pbio.2000797. ISSN  1545-7885. ЧВК  5333800. PMID  28253258.
  4. ^ Иоаннидис, Джон П. А .; Стэнли, Т. Д .; Дукулиагос, Христос (2017). «Сила предвзятости в экономических исследованиях». Экономический журнал. 127 (605): F236 – F265. Дои:10.1111 / ecoj.12461. ISSN  1468-0297.
  5. ^ Беллуз, Юлия (2015-02-16). «Джон Иоаннидис посвятил свою жизнь количественной оценке того, как нарушается наука». Vox. Получено 2020-03-28.
  6. ^ «Низкая мощность и кризис репликации: что мы узнали с 2004 (или 1984, или 1964)?» «Статистическое моделирование, причинно-следственный вывод и социальные науки». statmodeling.stat.columbia.edu. Получено 2020-03-28.
  7. ^ Вассерштейн, Рональд Л .; Лазар, Николь А. (2016-04-02). «Заявление ASA о p-значениях: контекст, процесс и цель». Американский статистик. 70 (2): 129–133. Дои:10.1080/00031305.2016.1154108. ISSN  0003-1305.
  8. ^ а б Гудман, Стивен; Гренландия, Сандер (24 апреля 2007 г.). «Почему большинство опубликованных результатов исследований неверны: проблемы анализа». PLOS Медицина. С. e168. Дои:10.1371 / journal.pmed.0040168. Архивировано из оригинал 16 мая 2020 г.
  9. ^ Гудман, Стивен; Гренландия, Сандер. "ОЦЕНКА НАДЕЖНОСТИ МЕДИЦИНСКОЙ ЛИТЕРАТУРЫ: ОТВЕТ НА" ПОЧЕМУ БОЛЬШИНСТВО ОПУБЛИКОВАННЫХ ИССЛЕДОВАТЕЛЬСКИХ РЕЗУЛЬТАТОВ ЛОЖНЫ"". Собрание архива биостатистических исследований. Рабочий документ 135: Рабочие документы кафедры биостатистики Университета Джона Хопкинса. Архивировано из оригинал 2 ноября 2018 г.CS1 maint: location (связь)
  10. ^ Jager, Leah R .; Лик, Джеффри Т. (1 января 2014 г.). «Оценка количества ложных открытий с научной точки зрения и их применение к ведущей медицинской литературе». Биостатистика. Oxford Academic. С. 1–12. Дои:10.1093 / биостатистика / kxt007. Архивировано из оригинал 11 июня 2020 г.
  11. ^ Лик, Джефф. «Является ли большая часть науки ложной? Титаны взвешивают». simplestatistics.org. Архивировано из оригинал 31 января 2017 г.
  12. ^ Шиммик, Ульрих (16 января 2019 г.). «Иоаннидис (2005) ошибался: большинство опубликованных результатов исследований не являются ложными». Индекс воспроизводимости. Архивировано из оригинал 19 сентября 2020 г.
  13. ^ Ингрэм, Пол (15 сентября 2016 г.). «Иоаннидис: с 2005 года наука выглядит плохо». www.PainScience.com. Архивировано из оригинал 21 июня 2020 г.
  14. ^ Миникель, Эрик В. (17 марта 2016 г.). «Джон Иоаннидис: состояние исследований в области исследований». www.cureffi.org. Архивировано из оригинал 17 января 2020 г.

дальнейшее чтение

внешняя ссылка