Исследования в области психологии часто находят разные результаты. Даже в таких областях, как медицина, где можно подумать, что существует прямая связь между тестируемым вмешательством и его эффектами, результаты могут различаться.
Стэнфордский тюремный эксперимент
Источник: Wikimedia Commons
Например, исследование показало, что употребление одного стакана апельсинового сока в день может повысить риск заражения диабетом типа 2 на 18 процентов. Исследователи из Калифорнийского университета Дэвис, однако, обнаружили, что употребление 100% сока снижает риск развития ряда хронических заболеваний, включая рак.
Белый зефир
Источник: Wikimedia Commons
Но многие считают, что в психологии ситуация хуже.
В недавней статье в New York Times упоминаются некоторые известные психологические исследования человеческого поведения, которые невозможно воспроизвести, в том числе знаменитый эксперимент в Тюрьме Стэнфорда, в котором показано, как люди, играющие роль в качестве охранников, быстро жестоко издевались над издевательствами с заключенными, а также знаменитый тест «зефир», что молодые дети, которые могли отложить удовлетворение, продемонстрировали более высокие достижения в области образования спустя годы, чем те, кто не смог.
Почему результаты исследований различаются и не могут реплицироваться?
Отношения между вмешательством и его последствиями могут зависеть от многих факторов. И различия в контексте или реализации могут оказать большое влияние на результаты исследования. Существуют и другие причины, по которым исследования могут сообщать о различных эффектах: ошибки шанса могут повлиять на результаты исследования. Исследователи могут также сознательно или непреднамеренно влиять на свои результаты.
Все эти источники изменчивости привели к опасениям о «кризисе репликации» в психологии и других социальных науках. Учитывая эту озабоченность, как мы должны оценивать исследования в области психологии и социальных наук?
Первое эмпирическое правило заключается в том, чтобы не полагаться исключительно на какое-либо исследование. Если возможно, просмотрите метаанализы или систематические обзоры, которые объединяют результаты нескольких исследований. Мета-анализы могут предоставить более достоверные доказательства. Метаанализы могут указывать причины, по которым результаты различаются.
Метаанализ представляет собой статистический анализ, который объединяет результаты многочисленных исследований. Основной принцип метаанализа заключается в том, что существует общая истина для всех концептуально похожих исследований, но каждое отдельное исследование было измерено с определенной ошибкой в рамках отдельных исследований. Цель состоит в том, чтобы использовать статистику для получения объединенной оценки, максимально приближенной к неизвестной общей истине. Затем метаанализ дает средневзвешенное значение по результатам всех отдельных исследований.
Помимо оценки неопределенной общей истины, метаанализ также может сравнивать результаты различных исследований и выявлять закономерности среди результатов исследования. Он также может выявить источники разногласий между этими результатами. И он может идентифицировать другие интересные отношения, которые появляются в контексте нескольких исследований. Ключевым преимуществом метааналитического подхода является совокупность информации, приводящая к более высокой статистической мощности и более надежной точечной оценке, чем это возможно из меры, полученной из многих отдельных исследований.
Тем не менее, есть некоторые недостатки в метааналитическом подходе к рассмотрению. Исследователь должен сделать выбор в отношении того, какие исследования включать, что может повлиять на результаты мета-анализа (например, только опубликованные исследования). Исследователь должен решить, как искать исследования. И исследователь должен решить, как справляться с неполными данными, анализировать данные и учитывать смещение публикации.
Иногда, однако, мы хотим оценить одно-индивидуальное исследование психологии. Итак, как мы должны это делать? Рассматривая, сколько веса дать исследование и его результаты, сосредоточьтесь на размере выборки. Исследования, скорее всего, не реплицируются, если они используют небольшие образцы. Наиболее положительными и отрицательными результатами являются те, у которых самые маленькие образцы или самые широкие доверительные интервалы. Меньшие исследования, скорее всего, не будут частично реплицироваться из-за случайности, но по ряду причин эффекты могут также быть меньшими по мере увеличения размера выборки. Если в ходе исследования было проведено тестирование вмешательства, могут возникнуть проблемы с пропускной способностью, которые препятствуют высокому внедрению в масштабе. Более мелкие исследования также часто нацелены на точный желаемый образец, который принесет наибольшие эффекты.
Существует ряд причин для этого: если, например, у вас есть дорогостоящая образовательная программа для разнообразия, которую вы можете использовать только с ограниченным количеством студентов, у вас может быть только один класс и у студентов, которые могли бы извлечь из этого больше пользы. Это означает, что эффект, скорее всего, будет меньше, если вы внедрили образование разнообразия в более крупную группу. Поэтому, в более общем плане, может быть полезно подумать о том, что может измениться, если образовательная программа будет увеличена. Например, маломасштабные образовательные программы вряд ли повлияют на более широкий институт, сообщество или общество. Но если масштабы, институциональная, общественная или социальная культура могут измениться в ответ.
Аналогичным образом рассмотрим конкретные особенности выборки, контекста и реализации. Как исследователи пришли к изучению многообразия образовательной программы, в том числе учреждения и студентов, которых они сделали? Вы ожидаете, что этот образец будет работать лучше или хуже, чем образец, который вас интересует? Например, если бы я был заинтересован в тестировании результатов метода обучения, который я использую в своем курсе веб-конференции, то Психология разнообразия в Гарварде может повлиять на результаты (например, в Гарварде, веб-конференции, кампусе). Было ли что-то уникальное в настройке, которая могла бы увеличить результаты?
Если исследование оценивало разносторонний образовательный курс, то как этот курс был реализован, тоже важно. Например, предположим, вы слышали, что курс веб-конференции по разнообразию может улучшить чувство принадлежности и включения учащихся. Если вы планируете внедрить подобный курс, вам, вероятно, захочется узнать формат курса веб-конференции и содержание курса и обучение преподавательского состава, чтобы оценить, могут ли вы иметь разные результаты.
У вас также может быть больше уверенности в результатах исследования, если есть какой-то четкий механизм, который объясняет результаты и постоянный по всем параметрам. Некоторые результаты в поведенческой экономике, например, предполагают, что определенные правила поведения человека жестко привязаны. Но эти механизмы могут быть трудно выявить. И многие эксперименты в поведенческой экономике, которые первоначально, казалось, отражали жесткое правило, не смогли воспроизвести, например, найти, что счастье увеличивает терпение и обучение.
Но если есть убедительная причина, по которой мы могли бы ожидать результатов, найденных в исследовании, или если существует сильная теоретическая причина, по которой мы могли бы ожидать, что конкретный результат будет обобщен, это должно заставить нас доверять результатам одно исследование немного больше. Но мы должны позаботиться о том, почему мы считаем, что есть убедительная причина.
Наконец, если это кажется слишком хорошим, чтобы быть правдой, возможно, это так. Это основано на принципе из байесовской статистики: более странные утверждения должны требовать более сильных доказательств , чтобы изменить «приор» или убеждения. Если мы серьезно относимся к нашим убеждениям, и есть основания полагать, что в среднем люди достаточно хороши в предсказаниях – тогда результаты, которые кажутся невероятными, на самом деле менее вероятны.
В заключение, все психологические исследования подвержены ошибкам, и, следовательно, результаты могут варьироваться и не реплицироваться. Гораздо лучше осознавать это, чем быть неосведомленным об ошибках, потенциально скрытых в исследовании. Научный метод был разработан, чтобы использовать эмпирические рассуждения, чтобы помочь нам разрешить случаи, когда исследования меняются или не реплицируются. Применение научного метода к изучению поведения человека и психологии не упростило поведение человека; вместо этого он предложил, насколько сложное человеческое поведение.
Рекомендации
Weissmark, M. (Готовится к выпуску). Наука разнообразия . Oxford University Press, США.
Вайсмарк М. (2004). J ustice Вопросы: Наследие Холокоста и Второй мировой войны . Oxford University Press, США.
Weissmark, M. & Giacomo, D. (1998). Эффективная психотерапия. U разнообразие Университета Чикаго, США.