В разные моменты нашей жизни мы все читали или рассказывали анекдоты о том, как кто-то немного изменил свою жизнь. Некоторые из них (или, по крайней мере, их вариации), вероятно, звучат знакомо: «Я вырезал хлеб из своего рациона и все внезапно почувствовал себя намного лучше»; «Эми сделала целое состояние, работая на дому, продавая таблетки для похудения в Интернете»; «После того, как врачи не могли понять, что со мной не так, я начал пить этот чай, и моя инфекция внезапно прояснилась». Весь смысл таких историй – попытаться нарисовать случайную связь в следующих случаях: (1) есть хлеб, заставляет вас чувствовать себя больным; (2) продавать таблетки для похудения – это хороший способ заработать деньги и (3) чай полезен для борьбы с инфекциями. Некоторые или все эти утверждения вполне могут быть правдой, но реальной проблемой этих историй является нехватка данных, на которых они основаны. Если вы хотите быть более уверенными в этих заявлениях, вам нужна дополнительная информация. Конечно; вы могли бы почувствовать себя лучше после выпивки этого чая, но как насчет других 10 человек, которые пили подобный чай и не видели никаких результатов? Как насчет всех других людей, продающих таблетки для похудения, которые были в финансовой дыре с первого дня и никогда не вылезали из нее, потому что это на самом деле мошенничество? Если вы хотите приблизиться к пониманию значения истинности этих утверждений, вам необходимо рассмотреть данные в целом; как истории успеха, так и истории неудачи. Тем не менее, рассказы о том, что кто-то не разбогател от продажи диетических таблеток, не так сильно движутся, и поэтому не видят свет дня; по крайней мере, не изначально. Этот аспект анекдотов был освещен The Onion несколько лет назад (и у Clickhole был свой собственный прием совсем недавно).
Эти анекдоты часто пробуют и бросают внимание на успешные случаи (хиты), игнорируя неудачные (промахи), приводя к необъективной картине того, как все будет работать. Они не приближают нас к истине. Большинство людей, которые создают и потребляют исследования в области психологии, хотели бы думать, что психологи выходят за рамки этих анекдотов и дают полезное представление о том, как работает ум, но в последнее время возникло множество проблем, касающихся того, насколько они в большей степени продвигаются в среднем, в основном благодаря результатам проекта воспроизводимости. Были затронуты многочисленные вопросы о том, как проводятся психологические исследования: либо в форме пропаганды определенных политических и социальных позиций (что искажает экспериментальные проекты и статистические интерпретации), либо выборочных способов манипулирования или сообщения данных для привлечения внимания к успешные данные без подтверждения неудачных прогнозов. Результатом стало довольно много ложных срабатываний и завышенных реальных, появившихся в литературе.
Хотя эти опасения оправданы, трудно количественно оценить масштабы проблем. В конце концов, очень немногие исследователи собираются выступить и сказать, что они манипулировали своими экспериментами или данными, чтобы найти результаты, которые они хотели, потому что (а) это только повредило бы их карьеру и (б) в некоторых случаях они даже не знают, что они делают это, или что то, что они делают, неправильно. Кроме того, поскольку большинство психологических исследований не регистрируются заранее, и обычно не публикуются нулевые результаты, выясняя, что исследователи надеялись найти (но не сделали), становится трудным делом, просто прочитав литературу. К счастью, в новом документе от Franco et al (2016) приводятся некоторые данные о том, как много занижения информации происходит. Хотя эти данные не будут окончательным словом по этому вопросу любыми способами (в основном из-за их небольшого размера выборки), они действительно обеспечивают некоторые из первых шагов в правильном направлении.
Франко и др. (2016) сообщают о группе психологических экспериментов, чьи опросные листы и данные были опубликованы. В частности, они взяты из экспериментов по обмену временем для социальных наук (TESS), программы NSF, в которой онлайн-эксперименты внедряются в национальные репрезентативные опросы населения. Нам говорят, что те исследователи, которые используют TESS, сталкиваются с строгими ограничениями по количеству вопросов, которые они могут задавать, что означает, что мы должны ожидать, что они ограничивают их вопросы наиболее теоретически значимыми. Другими словами, мы можем быть достаточно уверены в том, что у исследователей были определенные предсказания, которые они надеялись испытать для каждого экспериментального условия и оценки результата, и что эти предсказания были сделаны до фактического получения данных. Франко и др. (Franco et al., 2016) затем смогли отслеживать исследования TESS до возможных опубликованных версий статей, чтобы увидеть, какие экспериментальные манипуляции и результаты были и не сообщаются. Это предоставило авторам набор из 32 экспериментальных экспериментов по полупризнанной психологии для изучения предвзятости.
Первым шагом было сравнить количество экспериментальных условий и исходных переменных, которые присутствовали в исследованиях TESS, до числа, которое в конечном итоге появилось в опубликованных рукописях (т. Е. Авторы сообщают, что они сделали и что они измеряли?). В целом, 41% исследований TESS не смогли сообщить хотя бы об одном из экспериментальных условий; в то время как в исследованиях было в среднем 2,5 экспериментальных условия, в опубликованных работах упоминалось в среднем 1,8. Кроме того, 72% документов не сообщили о всех своих переменных результатов; в то время как в вопросниках было в среднем 15,4 переменных результатов, только в опубликованных отчетах указывалось 10.4. Взятые вместе, только около 1-в-4 из экспериментов сообщили все, что они сделали и что они измерили. Неудивительно, что этот шаблон распространяется и на размер сообщенных эффектов. Что касается статистической значимости, медианное значение p-значения было значительным (0,02), тогда как медианное несообщаемое p-значение не было (0,32); две трети представленных тестов были значительными, а только один-четвертый из незарегистрированных тестов. Наконец, опубликованные размеры эффекта были примерно в два раза больше, чем незарегистрированные.
В совокупности возникшая закономерность заключается в том, что исследования в области психологии имеют тенденцию недооценивать неудачные экспериментальные манипуляции, меры, которые не выходят за рамки, и меньшие эффекты. Это не должно удивлять почти всех, кто провел много времени у исследователей психологии или самих исследователей, которые попытались опубликовать нулевые результаты (или, по сути, попытались опубликовать почти все). Данные часто беспорядочны и несовместимы, и люди менее заинтересованы в том, чтобы читать о вещах, которые не сработали (если они не помещены в надлежащие контексты, где ошибки поиска эффектов могут фактически считаться значимыми, например, пытаясь предоставить доказательства против теории). Тем не менее, результат такой выборочной отчетности о том, что кажется достаточно крупным, заключается в том, что общая достоверность сообщаемых исследований психологии опускается ниже, чем одна ложноположительная.
Так что можно сделать по этой проблеме? Одно предложение, которое часто бросается в глаза, – это перспектива того, что исследователи должны заранее зарегистрировать свою работу, давая понять, какие анализы они будут проводить и какие прогнозы они сделали. Это было (вроде) случай в данных данных, и Franco et al (2016) одобрили этот вариант. Это позволяет людям оценивать исследования как нечто большее, чем просто полагаться на опубликованные отчеты об этом. Хотя это прекрасное предложение, до сих пор оно только улучшает состояние литературы. В частности, это действительно не помогает проблеме журналов, которые не публикуют нулевые выводы в первую очередь, и не обязательно запрещает исследователям делать пост-hoc-анализ их данных и поднимать дополнительные ложные срабатывания. Возможно, более амбициозный способ смягчения этих проблем, который приходит на ум, будет заключаться в том, чтобы коллективно изменить способ публикации журналов для публикации. В этой альтернативной системе исследователи представили набросок своей статьи в журнал до начала исследования, четко изложив (а), какими будут их манипуляции, (б), каковы будут их результаты, и (в) какой статистический анализ они возьмутся. Затем, и это важно, прежде чем исследователь или журналы узнают, какими будут результаты , будет принято решение опубликовать документ или нет. Это позволило бы получить нулевые результаты в основных журналах, а также позволить исследователям создавать свои собственные резюме, если все не получится. По сути, он устраняет некоторые стимулы для исследователей, чтобы обманывать статистически. Тогда оценка журналов будет основана не на том, появились ли интересные результаты, а скорее на том, был ли задан достаточно важный вопрос исследования.
Однако есть некоторые недостатки этого предложения. Во-первых, план займет некоторое время, чтобы принять, даже если все были на борту. Журналам нужно будет принять документ для публикации за несколько недель или месяцев до того, как сам документ будет завершен. Это создаст дополнительные осложнения для журналов, поскольку исследователи иногда не смогут завершить исследование вообще, своевременно или представить суб-парные бумаги, которые еще не достойны печати, оставляя возможные пробелы в публикации. Кроме того, иногда это означает, что выпуск журнала выходит без каких-либо существенных изменений в области психологических исследований (на этот раз никто ничего не обнаружил), что может негативно повлиять на фактор воздействия рассматриваемых журналов. Действительно, эта последняя часть, вероятно, является самым большим препятствием для проведения крупных капиталовложений в систему публикации, которая в настоящее время существует: большинство исследований в области психологии, вероятно, не будут хорошо излагать все это, и это, вероятно, будет означать, что меньше людей в конечном итоге заинтересованы в чтении и цитировании Это. Хотя возможно, я полагаю, что нулевые выводы будут фактически цитироваться с аналогичными показателями с положительными, что еще предстоит выяснить, и в отсутствие этой информации я не предвижу, что журналы ужасно заинтересованы в изменении их политики и принятии этот риск.
Ссылки: Franco, A., Malhotra, N., & Simonovits, G. (2016). Недооценка психологических экспериментов: данные из реестра исследований. Социальная психология и личность, 7 , 8-12.