Проблема репликации исследований психологии

К настоящему времени многие из вас, без сомнения, слышали о проекте воспроизводимости, где 100 психологических результатов были подвергнуты попыткам репликации. В случае, если вы не знакомы с ним, результаты этого проекта были меньше, чем звонки в поддержку исследований в этой области: из ожидаемых 89 повторений было получено только 37, а средний размер эффектов резко упал; в частности, исследования в области социальной психологии в этом отношении показались однозначно плохими. Это говорит о том, что во многих случаях можно было бы хорошо обслуживать, принимая много психологических результатов с помощью пары зерен соли.

Естественно, это заставляет многих людей задаться вопросом, есть ли у них какой-то способ, чтобы они были более уверенными в том, что эффект действительно , если можно так выразиться. Одним из возможных способов, с помощью которых можно было бы усилить доверие, является вопрос о том, содержит ли рассматриваемое исследование концептуальные повторения.

Это относится к случаям, когда авторы рукописи сообщают о результатах нескольких различных исследований, предполагающих измерение одной и той же основной вещи различными способами; то есть они изучают тему A с помощью методов X, Y и Z. Если все это положительно, вы должны быть более уверенными в том, что эффект реален. Действительно, у меня была бумага, которую отклонили не один раз за то, что она содержала только один эксперимент. Журналы часто хотят видеть несколько исследований в одном документе, и это, вероятно, является частью причины: один эксперимент, безусловно, менее надежный, чем несколько.

Flickr/Michael Caroe Andersen
Он никуда не денется, но, по крайней мере, он надежно
Источник: Flickr / Michael Caroe Andersen

Согласно неизвестной учетной записи модератора о неудаче репликации, результаты психологического исследования, по сути, часто непостоянны. Некоторые результаты могут зависеть от времени суток, когда были сделаны измерения, страна образца, какая-то конкретная деталь материала стимула, является ли экспериментатор мужчиной или женщиной; вы называете это. Другими словами, возможно, что эти опубликованные эффекты реальны, но встречаются только в некоторых довольно специфических контекстах, о которых мы недостаточно осведомлены; то есть они модерируются неизвестными переменными. Если это так, маловероятно, что некоторые попытки репликации будут успешными, так как маловероятно, что все уникальные, неизвестные и недооцененные модераторы будут реплицироваться. Вот где возникают концептуальные репликации: если в документе есть две, три или несколько разных попыток изучить одну и ту же тему, мы должны ожидать, что эффект, который они проявляют, скорее распространится за пределы очень ограниченного набора контекстов и должен повторить Более охотно.

Это лестная гипотеза для объяснения этих неудач репликации; в препубликации просто недостаточно репликации, поэтому ограниченные результаты публикуются, как если бы они были более обобщаемыми. Менее лестная гипотеза заключается в том, что многие исследователи, из-за отсутствия лучшего слова, обманывают, применяя нечестную тактику исследования. Эта тактика может включать в себя гипотезу после сбора данных, а только сбор участников до тех пор, пока данные не сообщают о том, чего хотят исследователи, а затем останавливают, разбивая образцы на разные группы до тех пор, пока не будут обнаружены различия и т. Д.

Существует также печально известный выпуск журналов, в которых публикуются только положительные результаты, а не негативные (создание большого стимула к обману, поскольку наказание за это практически не существует, пока вы не просто составляете данные). Именно по этим причинам требуется предварительная регистрация исследования – прямое указание на то, что вы собираетесь посмотреть раньше времени, – заметно положительные результаты. Если исследование не реплицируется, потому что система обманывается, более внутренние репликации (те же авторов) на самом деле не очень помогают, когда речь идет о прогнозировании внешних реплик (проводимых сторонними сторонами). Внутренние репликации просто предоставляют исследователям возможность сообщать о нескольких попытках обмана.

Эти две гипотезы дают разные прогнозы относительно данных из вышеупомянутого проекта воспроизводимости: в частности, исследования, содержащие внутренние репликации, должны быть более вероятными для успешной репликации, если гипотеза неизвестного модератора является точной. Конечно, это было бы странное положение дел с точки зрения «это открытие», если бы несколько концептуальных повторений не были более вероятными, чтобы доказать воспроизводимость, чем документы с одним учебным заведением. Это было бы похоже на то, что эффекты, которые были воспроизведены, скорее не будут повторяться, чем эффекты, которых нет. Напротив, гипотеза обмана (или, более вежливо, сомнительная гипотеза исследовательской практики) не имеет никакой проблемы с идеей о том, что внутренние повторения могут оказаться как внешне воспроизводимыми, как документы с одним учебным заведением; обманывать три раза, не означает, что это скорее будет правдой, чем обмануть его один раз.

Flickr/vozach1234
Это не обман; это просто «спорная стратегия тестирования»,
Источник: Flickr / vozach1234

Это приводит меня к новой статье Кунерта (2016), которая пересматривала некоторые данные из проекта воспроизводимости. Из 100 оригинальных документов 44 содержали внутренние репликации: 20 содержали только одну репликацию, 10 повторялись дважды, 9 тиражировались 3 раза, а 5 содержали более трех. Они были сопоставлены с 56 документами, которые не содержали внутренних реплик, чтобы увидеть, что впоследствии будет лучше воспроизводиться (как измерено путем достижения статистической значимости). Как выяснилось, бумаги с внутренними репликациями изредка реплицируются примерно в 30% случаев, тогда как бумаги без внутренних повторений реплицируются наружу примерно в 40% случаев. Мало того, что внутренне реплицированные бумаги не были значительно лучше, в этом отношении они были немного хуже. Аналогичный вывод был сделан в отношении среднего размера эффекта: бумаги с внутренними репликациями, скорее всего, не будут содержать более крупный размер эффекта по сравнению с бумагами без таких повторений.

Разумеется, документы, содержащие внутренние репликации, отличаются от документов, которые не содержат таких повторений. Это означает, что возможно, что внутренние повторения действительно хорошие, но их положительные эффекты перевешиваются другими негативными факторами. Например, кто-то, предлагающий особенно новую гипотезу, может быть склонен включать больше внутренних повторений в свою работу, чем кто-то, кто изучает установленный; последнему исследователю не нужно больше повторений в его статье, чтобы опубликовать его, потому что эффект уже был воспроизведен в другой работе.

К этому вопросу Кунерт (Kunert, 2016) использовал 7 идентифицированных предикторов воспроизводимости из области исследования Open Collaboration – исследования, тип эффекта, оригинальную P-ценность, размер оригинального эффекта, мощность репликации, удивительность оригинального эффекта и проблему проведения репликации – для оценки того, отличалась ли внутренне реплицированная работа каким-либо заметным образом от не-внутренне реплицированного образца. Как оказалось, два образца были довольно похожими на все факторы, кроме одного: поля исследования. Эффекты с внутренней репликацией чаще исходят из социальной психологии (70%), чем когнитивная психология (54%). Как я уже упоминал ранее, статьи социальной психологии реплицировались реже. Однако неизвестный эффект замедлителя не был особенно хорошо поддержан для любого поля при индивидуальном рассмотрении.

Таким образом, документы, содержащие внутренние репликации, с большей вероятностью не преуспели, когда дело доходило до внешних репликаций, которые, на мой взгляд, предполагают, что что-то в этом процессе происходит очень неправильно. Возможно, исследователи используют свою свободу для анализа и сбора данных по своему усмотрению, чтобы сделать выводы, которые они хотят видеть; возможно, журналы предпочитают публиковать выводы людей, которым повезло, по сравнению с теми, кто понял это правильно. Эти возможности, конечно, не являются взаимоисключающими. Теперь я полагаю, что можно продолжать делать аргумент, который выглядит примерно так: «документы, содержащие концептуальные репликации, более вероятно, будут делать что-то другое по отношению к документам только с одним исследованием», что потенциально может объяснить отсутствие силы внутренними репликациями, и что бы это ни было, «что-то» не может быть напрямую задействовано переменными, рассмотренными в текущем документе. По сути, такой аргумент подсказывает, что неизвестные модераторы все вниз.

Flickr/ynnil
«… и эта черепаха стоит на раковине еще большей черепахи …»
Источник: Flickr / ynnil

Хотя верно, что такое объяснение не исключено из текущих результатов, его не следует воспринимать как любую позицию по умолчанию, почему это исследование не реплицируется. Объяснение «исследователи обманывают» меня на этом этапе несколько более правдоподобно, учитывая, что нет много других очевидных объяснений того, почему якобы тиражированные статьи лучше воспроизводить. Как Кунерт (2016) прямо говорит:

В этом докладе говорится, что без широко распространенных изменений в психологической науке становится трудно отличить его от неформальных наблюдений, анекдотов и догадок.

Это подводит нас к вопросу о том, что можно сделать по этому вопросу. Существуют процедурные способы решения этой проблемы, такие как рекомендация Куннера (2016 г.) о том, чтобы журналы могли публиковать документы независимо от их результатов, – но основное внимание уделено теоретическим аспектам публикации и по-прежнему уделяется. Слишком много статей в психологии публикуются без какой-либо очевидной необходимости, чтобы исследователи объясняли свои выводы в каком-либо значимом смысле; вместо этого они обычно просто пересчитывают и намечают свои результаты, или они создают некоторую биологически неправдоподобную функцию для того, что они нашли (например, «Х заставляет людей чувствовать себя хорошо» или «задачи самоконтроля – это тяжелые метаболические стоки»). Без серьезного и последовательного применения эволюционной теории к психологическим исследованиям неправдоподобные эффекты будут по-прежнему опубликованы и впоследствии не будут реплицироваться, потому что в противном случае мало что можно сказать, имеет ли смысл нахождение. Напротив, я считаю правдоподобным, что маловероятные эффекты могут быть более четко выявлены – рецензентами, читателями и репликаторами – если все они сформулированы в рамках одной и той же теоретической основы; еще лучше, проблемы в дизайне можно более легко идентифицировать и исправить, рассмотрев лежащую в основе функциональную логику, что приведет к продуктивным будущим исследованиям.

Ссылки: Kunert, R. (2016). Внутренние концептуальные репликации не увеличивают успех независимой репликации. Обзор психологического бюллетеня , DOI 10.3758 / s13423-016-1030-9