Внешняя валидность - External validity

Внешняя валидность обоснованность применения выводов научного исследования вне контекста этого исследования.[1] Другими словами, это степень, в которой результаты исследования могут быть обобщены для других ситуаций, людей, стимулов и времени.[2] В отличие, внутренняя валидность обоснованность сделанных выводов в контекст конкретного исследования. Поскольку общие выводы почти всегда являются целью исследования, внешняя валидность - важное свойство любого исследования. Математический анализ внешней валидности касается определения того, возможно ли обобщение среди разнородных популяций, и разработки статистических и вычислительных методов, дающих валидные обобщения.[3]

Угрозы

«Угроза внешней достоверности - это объяснение того, как вы могли ошибаться, делая обобщение на основе результатов конкретного исследования».[4] В большинстве случаев возможность обобщения ограничена, когда влияние одного фактора (т.е. независимая переменная ) зависит от других факторов. Таким образом, все угрозы внешней действительности можно описать как статистические взаимодействия.[5] Вот некоторые примеры:

  • Способность по лечению Взаимодействие: выборка может иметь определенные особенности, которые взаимодействуют с независимой переменной, что ограничивает возможность обобщения. Например, в сравнительных исследованиях психотерапии часто используются конкретные выборки (например, добровольцы, в сильной депрессии, без сопутствующих заболеваний). Если психотерапия окажется эффективной для этих пациентов из выборки, будет ли она эффективна и для негров, или для пациентов с легкой депрессией, или для пациентов с сопутствующими другими расстройствами? В противном случае внешняя достоверность исследования будет ограничена.
  • Ситуация по взаимодействию с лечением: все ситуационные особенности (например, условия лечения, время, место, освещение, шум, назначение лечения, исследователь, время, объем и масштабы измерения и т. Д.) Исследования потенциально ограничивают возможность обобщения.
  • Предварительное тестирование по взаимодействию с лечением: Если причинно-следственные связи могут быть обнаружены только при проведении предварительных тестов, это также ограничивает общность результатов. Иногда это называют «сенсибилизацией», потому что предварительный тест делает людей более чувствительными к манипуляциям с лечением.

Обратите внимание, что исследование внешний срок действия ограничен его внутренний срок действия. Если причинный вывод сделанное в рамках исследования недействительно, то обобщение этого вывода на другие контексты также будет недействительным.

Кук и Кэмпбелл[6] сделал решающее различие между обобщением к некоторая популяционная и обобщающая через субпопуляции определяются разными уровнями какого-либо фонового фактора. Линч утверждал, что обобщить почти никогда нельзя. к значимые группы населения, кроме как моментальный снимок истории, но можно проверить степень, в которой влияние той или иной причины на некоторую зависимую переменную обобщает через субпопуляции, различающиеся по фоновому фактору. Для этого необходимо проверить, смягчается ли исследуемый лечебный эффект взаимодействием с одним или несколькими фоновыми факторами.[5][7]

Обезоруживающие угрозы

В то время как перечисление угроз действительности может помочь исследователям избежать необоснованных обобщений, многие из этих угроз можно обезвредить или нейтрализовать систематическим образом, чтобы сделать возможным достоверное обобщение. В частности, экспериментальные данные из одной популяции могут быть «повторно обработаны» или «повторно откалиброваны», чтобы обойти популяционные различия и произвести достоверные обобщения для второй популяции, где эксперименты не могут быть выполнены. Жемчуг и Барейнбойм[3] классифицировал проблемы обобщения на две категории: (1) те, которые поддаются действительной повторной калибровке, и (2) те, где внешняя достоверность теоретически невозможна. Используя графическое исчисление,[8] они вывели необходимое и достаточное условие для экземпляра проблемы, чтобы сделать допустимое обобщение, и разработали алгоритмы, которые автоматически производят необходимую повторную калибровку, если таковая существует.[9] Это сводит проблему внешней валидности к упражнению в теории графов и приводит некоторых философов к выводу, что проблема теперь решена.[10]

Важный вариант проблемы внешней валидности касается критерий отбора, также известный как систематическая ошибка выборки - то есть систематическая ошибка, возникающая, когда исследования проводятся на нерепрезентативных выборках предполагаемой совокупности. Например, если клиническое испытание проводится на студентах колледжа, исследователь может пожелать узнать, распространяются ли результаты на всю популяцию, если такие атрибуты, как возраст, образование и доход, существенно отличаются от характеристик типичного студента. Графический метод Барейнбойма и Перла определяет условия, при которых можно обойти смещение выборки, и, когда эти условия соблюдены, метод строит объективную оценку среднего причинного эффекта для всей совокупности. Основное различие между обобщением из исследований с неправильной выборкой и обобщением среди разнородных популяций заключается в том, что различия между популяциями обычно вызваны существовавшими ранее факторами, такими как возраст или этническая принадлежность, тогда как систематическая ошибка отбора часто вызвана условиями после лечения, например, пациенты, выбывающие из исследования, или пациенты, выбранные по степени тяжести травмы. Когда выбор регулируется факторами после обработки, требуются нетрадиционные методы повторной калибровки для обеспечения оценки без смещения, и эти методы легко получить из графика проблемы.[11][12]

Примеры

Если возраст считается основным фактором, вызывающим различие эффекта лечения от человека к человеку, тогда возрастные различия между учащимися, включенными в выборку, и населением в целом могут привести к смещенной оценке среднего эффекта лечения в этой группе населения. Однако такое смещение можно исправить с помощью простой процедуры повторного взвешивания: мы берем возрастной эффект в подгруппе студентов и вычисляем его среднее значение, используя возрастное распределение в общей популяции. Это дало бы нам объективную оценку среднего эффекта лечения в популяции. Если, с другой стороны, лечение влияет на соответствующий фактор, который отличает исследуемую выборку от общей популяции, тогда необходимо использовать другую схему повторного взвешивания. Вызов этого фактора Z, мы снова усредняем z-специфический эффект Икс на Y в экспериментальной выборке, но теперь мы взвешиваем это по "причинному эффекту" Икс на Z. Другими словами, новый вес - это доля единиц, достигших уровня Z = z лечился Х = х были введены для всего населения. Эта интервенционная вероятность, часто пишется[13] , иногда можно оценить на основе наблюдательных исследований в общей популяции.

Типичный пример такого рода возникает, когда Z является посредником между лечением и результатом. Например, лечение может быть препаратом, снижающим уровень холестерина, Z может быть уровень холестерина, и Y продолжительность жизни. Здесь, Z зависит от лечения и является основным фактором, определяющим результат, Y. Предположим, что у субъектов, выбранных для экспериментального исследования, как правило, более высокий уровень холестерина, чем это типично для населения в целом. Чтобы оценить средний эффект препарата на выживаемость во всей популяции, мы сначала вычисляем z-специфический лечебный эффект в экспериментальном исследовании, а затем усреднить его с помощью как весовая функция. Полученная оценка будет несмещенной, даже если Z и Y сбиты с толку - то есть когда есть неизмеримый общий фактор, который влияет на оба Z и Y.[14]

Точные условия, обеспечивающие применимость этой и других схем взвешивания, сформулированы в Bareinboim and Pearl, 2016.[14] и Bareinboim et al., 2014.[12]

Внешняя, внутренняя и экологическая значимость

Во многих исследованиях и планах исследований может быть компромисс между внутренняя валидность и внешняя достоверность: попытки повысить внутреннюю достоверность могут также ограничить обобщаемость результатов, и наоборот. Эта ситуация побудила многих исследователей провести «экологически обоснованные» эксперименты. Под этим они подразумевают, что экспериментальные процедуры должны напоминать «реальные» условия. Они критикуют отсутствие экологическая ценность во многих лабораторных исследованиях с акцентом на искусственно контролируемую и ограниченную среду. Некоторые исследователи считают, что внешняя валидность и экологическая валидность тесно связаны в том смысле, что причинно-следственные выводы, основанные на экологически обоснованных исследовательских планах, часто допускают более высокие степени обобщаемости, чем те, которые получены в искусственно созданной лабораторной среде. Однако это снова относится к различию между обобщением для некоторой популяции (тесно связанным с озабоченностью по поводу экологической значимости) и обобщением для субпопуляций, которые различаются по некоторому фоновому фактору. Некоторые результаты, полученные в экологически обоснованных исследовательских условиях, вряд ли можно обобщить, а некоторые результаты, полученные в строго контролируемых условиях, могут претендовать на почти универсальную внешнюю достоверность. Таким образом, внешняя и экологическая значимость независимы - исследование может обладать внешней достоверностью, но не экологической, и наоборот.

Качественное исследование

В рамках качественное исследование В парадигме внешняя валидность заменяется концепцией переносимости. Переносимость - это способность результатов исследования переноситься в ситуации со схожими параметрами, популяциями и характеристиками.[15]

В экспериментах

Исследователи часто заявляют, что эксперименты по своей природе не имеют внешней достоверности. Некоторые утверждают, что при использовании экспериментального метода может возникнуть множество недостатков. Благодаря получению достаточного контроля над ситуацией, чтобы случайным образом назначать людей условиям и исключать влияние посторонних переменных, ситуация может стать несколько искусственной и далекой от реальной жизни.

Речь идет о двух видах обобщения:

  1. Степень, в которой мы можем сделать обобщение от ситуации, созданной экспериментатором, к ситуациям реальной жизни (обобщаемость по ситуациям),[2] и
  2. Степень, в которой мы можем сделать обобщение от людей, участвовавших в эксперименте, до людей в целом (возможность обобщения среди людей)[2]

Однако оба эти соображения относятся к концепции Кука и Кэмпбелла об обобщении к некоторая целевая группа, а не, возможно, более важная задача оценки обобщаемости результатов эксперимента через субпопуляции, которые отличаются от конкретной изучаемой ситуации, и люди, которые в некоторой степени отличаются от исследуемых респондентов.[6]

Критики экспериментов предполагают, что внешнюю валидность можно улучшить за счет использования полевых настроек (или, как минимум, реалистичных лабораторных настроек) и использования истинных вероятностных выборок респондентов. Однако, если цель - понять обобщаемость через В субпопуляциях, которые различаются ситуативными или личными факторами, эти средства не обладают той эффективностью в увеличении внешней валидности, которая обычно им приписывается. Если существуют фоновые взаимодействия с лечением фактора X, о которых исследователь не знает (что кажется вероятным), эти методы исследования могут скрыть существенное отсутствие внешней достоверности. Дипбой и Фланаган, пишущие о промышленной и организационной психологии, отмечают, что данные свидетельствуют о том, что результаты, полученные в одной полевой и одной лабораторной среде, одинаковы. вряд ли для обобщения на второй вариант поля.[16] Таким образом, полевые исследования по своей природе не обладают высокой внешней валидностью, а лабораторные исследования по своей природе не обладают низкой внешней валидностью. В обоих случаях зависит, изменится ли конкретный изученный лечебный эффект с изменениями фоновых факторов, которые в этом исследовании остаются неизменными. Если какое-либо исследование «нереалистично» на уровне некоторого фонового фактора, который не взаимодействует с лечением, оно не влияет на внешнюю валидность. Внешняя валидность оказывается под угрозой только в том случае, если эксперимент поддерживает некоторый постоянный фоновый фактор на нереалистичном уровне и если изменение этого фонового фактора выявило бы сильное взаимодействие «Лечение х Фоновый фактор».[5]

Возможность обобщения на разные ситуации

Исследования психологических экспериментов, проводимые в университетах, часто критикуют за то, что они проводятся в искусственных ситуациях и что их нельзя распространить на реальную жизнь.[17] Чтобы решить эту проблему, социальные психологи пытаются повысить обобщаемость своих результатов, сделав свои исследования максимально реалистичными. Как отмечалось выше, это делается в надежде на обобщение на определенную популяцию. Реализм сам по себе не помогает делать заявления о том, изменились бы результаты, если бы обстановка была более реалистичной, или если бы участники исследования были помещены в другую реалистичную обстановку. Если тестируется только одна настройка, невозможно сделать заявления о возможности обобщения для разных настроек.[5][7]

Однако многие авторы смешивают внешнюю достоверность и реализм. Есть несколько способов сделать эксперимент реалистичным:

  1. Сходство экспериментальной ситуации с событиями, которые часто происходят в повседневной жизни - ясно, что многие эксперименты явно нереальны.
  2. Во многих экспериментах люди попадают в ситуации, с которыми они редко встречаются в повседневной жизни.

Это относится к степени, в которой эксперимент похож на реальные ситуации, как эксперимент. обыденный реализм.[17]

Более важно убедиться, что в исследовании психологический реализм - насколько психологические процессы, запускаемые в эксперименте, похожи на психологические процессы, происходящие в повседневной жизни.[18]

Психологический реализм усиливается, если люди погружаются в реальное событие. Для этого исследователи иногда говорят участникам история на обложке - ложное описание цели исследования. Однако, если бы экспериментаторы рассказали участникам о цели эксперимента, такая процедура была бы невысокой в ​​плане психологического реализма. В повседневной жизни никто не знает, когда могут возникнуть чрезвычайные ситуации, и у людей нет времени планировать ответные меры. Это означает, что виды инициируемых психологических процессов будут сильно отличаться от реальных чрезвычайных ситуаций, что снизит психологический реализм исследования.[2]

Люди не всегда знают, почему они делают то, что они делают, или что они делают, пока это не произойдет. Таким образом, описание экспериментальной ситуации участникам и последующая просьба к ним отреагировать нормально приведет к реакции, которая может не соответствовать поведению людей, которые фактически находятся в такой же ситуации. Мы не можем полагаться на прогнозы людей о том, что они будут делать в гипотетической ситуации; мы можем узнать, что люди на самом деле будут делать, только когда создадим ситуацию, которая запускает те же психологические процессы, что и в реальном мире.

Возможность обобщения среди людей

Социальные психологи изучают, как люди в целом подвержены социальному влиянию. Несколько экспериментов задокументировали интересный, неожиданный пример социального влияния, когда простое знание присутствия других снижает вероятность того, что люди помогли.

Единственный способ быть уверенным в том, что результаты эксперимента отражают поведение определенной популяции, - это обеспечить случайный выбор участников из этой популяции. Выборки в экспериментах не могут быть выбраны случайным образом, как в опросах, потому что выбор случайных выборок для экспериментов по социальной психологии непрактичен и дорого обходится. Достаточно сложно убедить случайную выборку людей согласиться ответить на несколько вопросов по телефону в рамках политического опроса, а проведение таких опросов может стоить тысячи долларов. Более того, даже если кто-то каким-то образом смог набрать действительно случайную выборку, может наблюдаться ненаблюдаемая неоднородность в эффектах экспериментального лечения ... Лечение может иметь положительный эффект на одни подгруппы, но отрицательный - на другие. Эффекты, показанные в средних показателях лечения, не могут распространяться ни на одну подгруппу.[5][19]

Многие исследователи решают эту проблему, изучая основные психологические процессы, которые делают людей восприимчивыми к социальному влиянию, предполагая, что эти процессы настолько фундаментальны, что они универсальны. Некоторые процессы социального психолога действительно различаются в разных культурах, и в этих случаях необходимо изучать различные образцы людей.[20]

Репликации

Окончательная проверка внешней валидности эксперимента - это репликация - повторное проведение исследования, как правило, с другими предметными группами или в других условиях. Исследователи часто используют разные методы, чтобы увидеть, получают ли они те же результаты.

Когда проводится много исследований одной проблемы, результаты могут отличаться. Некоторые исследования могут выявить влияние количества прохожих на помощь, а некоторые - нет. Чтобы разобраться в этом, существует статистический метод, называемый метаанализ который усредняет результаты двух или более исследований, чтобы увидеть, является ли эффект независимой переменной надежным. Мета-анализ, по сути, говорит нам о вероятности того, что результаты многих исследований связаны с случайностью или с независимой переменной. Если будет обнаружено, что независимая переменная оказывает влияние только в одном из 20 исследований, метаанализ покажет вам, что это одно исследование было исключением и что в среднем независимая переменная не влияет на зависимую переменную. Если независимая переменная оказывает влияние в большинстве исследований, метаанализ, вероятно, покажет нам, что в среднем она влияет на зависимую переменную.

Могут быть достоверные явления, которые не ограничиваются лабораторными исследованиями. Например, было обнаружено, что увеличение числа прохожих препятствует оказанию помощи разным людям, включая детей, студентов университетов и будущих служителей;[20] в Израиле;[21] в малых и крупных городах США;[22] в различных условиях, например, в психологических лабораториях, на городских улицах и в поездах метро;[23] и с различными типами чрезвычайных ситуаций, такими как захват, потенциальные пожары, драки и несчастные случаи,[24] а также с менее серьезными событиями, такими как спущенное колесо.[25] Многие из этих репликаций были проведены в реальных условиях, когда люди не могли знать, что проводится эксперимент.

Основная дилемма социального психолога

При проведении психологических экспериментов некоторые полагают, что всегда существует компромисс между внутренней и внешней достоверностью.

  1. наличие достаточного контроля над ситуацией, чтобы гарантировать, что никакие посторонние переменные не влияют на результаты, и случайное распределение людей по условиям, и
  2. обеспечение того, чтобы результаты можно было распространить на повседневную жизнь.

Некоторые исследователи считают, что хороший способ повысить внешнюю валидность - это провести полевые эксперименты. В полевом эксперименте поведение людей изучается вне лаборатории, в естественных условиях. Полевой эксперимент идентичен по конструкции лабораторному эксперименту, за исключением того, что он проводится в реальных условиях. Участники полевого эксперимента не осознают, что события, которые они переживают, на самом деле являются экспериментом. Некоторые утверждают, что внешняя значимость такого эксперимента высока, потому что он проводится в реальном мире с реальными людьми, которые более разнообразны, чем типичная выборка студентов университета. Однако, поскольку реальные настройки сильно различаются, результаты, полученные в одной реальной обстановке, могут или не могут быть обобщены на другую реальную настройку.[16]

Ни внутренняя, ни внешняя достоверность не фиксируются в одном эксперименте. Социальные психологи выбирают сначала внутреннюю валидность, проводя лабораторные эксперименты, в которых людей случайным образом распределяют по различным условиям и контролируют все посторонние переменные. Другие социальные психологи предпочитают внешнюю валидность контролю, проводя большую часть своих исследований в полевых условиях, и многие делают и то, и другое. Взятые вместе, оба типа исследований отвечают требованиям идеального эксперимента. Благодаря воспроизведению исследователи могут изучить данный вопрос исследования с максимальной внутренней и внешней достоверностью.[26]

Смотрите также

Примечания

  1. ^ Митчелл, М. и Джолли, Дж. (2001). Объяснение дизайна исследования (4-е изд.) Нью-Йорк: Харкорт.
  2. ^ а б c d Аронсон, Э., Уилсон, Т. Д., Акерт, Р. М., и Фер, Б. (2007). Социальная психология. (4-е изд.). Торонто, Онтарио: Образование Пирсона.
  3. ^ а б Перл, Иудея; Барейнбойм, Элиас (2014). "Внешнее действие: От делать-вычисление к транспортабельности между популяциями ». Статистическая наука. 29 (4): 579–595. arXiv:1503.01603. Дои:10.1214 / 14-стс486.
  4. ^ Трохим, Уильям М. База знаний о методах исследования, 2-е издание.
  5. ^ а б c d е Линч, Джон (1982). «О внешней достоверности экспериментов в потребительских исследованиях». Журнал потребительских исследований. 9 (3): 225–239. Дои:10.1086/208919. JSTOR  2488619.
  6. ^ а б Кук, Томас Д .; Кэмпбелл, Дональд Т. (1979). Квази-экспериментирование: вопросы проектирования и анализа полевых настроек. Чикаго: Издательская компания колледжа Рэнда МакНалли. ISBN  978-0395307908.
  7. ^ а б Линч, Джон (1999). «Теория и внешняя валидность». Журнал Академии маркетинговых наук. 27 (3): 367–76. CiteSeerX  10.1.1.417.8073. Дои:10.1177/0092070399273007.
  8. ^ Жемчуг, Иудея (1995). «Причинные диаграммы для эмпирических исследований». Биометрика. 82 (4): 669–710. Дои:10.1093 / biomet / 82.4.669.
  9. ^ Барейнбойм, Элиас; Жемчуг, Иудея (2013). «Общий алгоритм определения переносимости экспериментальных результатов». Журнал причинного вывода. 1 (1): 107–134. arXiv:1312.7485. Дои:10.1515 / jci-2012-0004.
  10. ^ Марселлези, Александр (декабрь 2015 г.). «Внешняя валидность: есть ли проблема?». Философия науки. 82 (5): 1308–1317. Дои:10.1086/684084.
  11. ^ Жемчуг, Иудея (2015). Обобщение экспериментальных результатов. Журнал причинного вывода. 3 (2). С. 259–266.
  12. ^ а б Барейнбойм, Элиас; Тиан, Джин; Жемчуг, Иудея (2014). Бродли, Карла Э.; Стоун, Питер (ред.). «Восстановление от смещения отбора в причинно-следственных и статистических выводах». Материалы двадцать восьмой конференции AAAI по искусственному интеллекту: 2410–2416.
  13. ^ Перл, Иудея; Глимур, Мэделин; Джуэлл, Николас П. (2016). Причинно-следственный вывод в статистике: учебник. Нью-Йорк: Вили.
  14. ^ а б Барейнбойм, Элиас; Перл, Иудея (2016). «Причинный вывод и проблема слияния данных». Труды Национальной академии наук. 113 (27): 7345–7352. Дои:10.1073 / pnas.1510507113. ЧВК  4941504. PMID  27382148.
  15. ^ Линкольн, Ю. И Губа, Э. (1986). Но насколько это строго? Достоверность и достоверность натуралистической оценки. В D.D. Уильямс (ред.), Натуралистическая оценка (стр. 73–84). Новые направления оценки программ, 30. Сан-Франциско, Калифорния: Джосси-Басс.
  16. ^ а б Dipboye, Роберт Л .; Фланаган, Майкл Ф. (1979). «Параметры исследования в промышленной и организационной психологии: выводы в этой области более обобщаемы, чем лабораторные». Американский психолог. 34 (2): 141–150. Дои:10.1037 / 0003-066x.34.2.141.
  17. ^ а б Аронсон, Э., и Карлсмит, Дж. М. (1968). Эксперименты в социальной психологии. В Г. Линдзи и Э. Аронсон (ред.), Справочник по социальной психологии. (Том 2, стр. 1–79). Рединг, Массачусетс: Аддисон-Уэсли.
  18. ^ Аронсон, Э., Уилсон, Т.Д., и Брюэр, м. (1998). Экспериментальные методы. В Д. Гилберте, С. Фиске и Г. Линдзи (ред.), Справочник по социальной психологии. (4-е изд., Том 1, стр. 99–142). Нью-Йорк: Random House.
  19. ^ Хатчинсон, Дж. Уэсли; Камакура, Вагнер А .; Линч, Джон Г. (2000). «Незаметная неоднородность как альтернативное объяснение« обратных »эффектов в поведенческих исследованиях». Журнал потребительских исследований. 27 (3): 324–344. Дои:10.1086/317588. JSTOR  10.1086/317588.
  20. ^ а б Darley, J.M .; Батсон, К. (1973). «От Иерусалима до Иерихона: исследование ситуационных и диспозиционных переменных в оказании помощи». Журнал личности и социальной психологии. 27: 100–108. Дои:10,1037 / ч0034449.
  21. ^ Schwartz, S.H .; Готтлиб, А. (1976). «Реакция очевидцев на насильственную кражу: преступление в Иерусалиме». Журнал личности и социальной психологии. 34 (6): 1188–1199. Дои:10.1037/0022-3514.34.6.1188.
  22. ^ Latane, B .; Даббс, Дж. М. (1975). «Секс, размер группы и помощь в трех городах». Социометрия. 38 (2): 108–194. Дои:10.2307/2786599. JSTOR  2786599.
  23. ^ Harrison, J.A .; Уэллс, Р. Б. (1991). «Влияние свидетелей на помогающее поведение мужчин: социальное сравнение и распространение ответственности». Репрезентативное исследование в социальной психологии. 96: 187–192.
  24. ^ Latane, B .; Дарли, Дж. М. (1968). «Групповое подавление вмешательства посторонних». Журнал личности и социальной психологии. 10 (3): 215–221. Дои:10,1037 / ч 0026570. PMID  5704479.
  25. ^ Hurley, D .; Аллен, Б. (1974). «Влияние количества людей, находящихся в неаварийной ситуации». Журнал социальной психологии. 92: 27–29. Дои:10.1080/00224545.1974.9923068.
  26. ^ Латане Б. и Дарли Дж. М. (1970). Невозможный наблюдатель: Почему он не помогает? Энглвудские скалы, Нью-Джерси: Прентис-Холл