Страх перед ложными позитивами

Я единственный бог, который знает ключи / оружейный склад, где заперт молния. / Нет необходимости в этом, не здесь. / Позвольте мне вас убедить. ~ Aischylos: Eumenides [1]

В широко распространенной статье, появившейся в Природе , Беньямин и 71 соавторы просят, чтобы уровни значимости были затянуты от текущего соглашения p <0,05 до 0,005. Аргумент состоит в том, что опубликованный отчет о психологической науке содержит слишком много ложных положительных результатов, что заставляет нас поверить в то, что не так, например, в Sasquatch или социальное праймирование. Снижение порога значимости уменьшит частоту ложных срабатываний. В то же время, говорят они, новая конвенция, если она будет принята, поможет исправить кризис репликации. Или это? Если сложно реплицировать обнаружение 0,05 на заданном уровне статистической мощности, то будет сложно воспроизвести вывод .005 на том же уровне мощности. Помните, что статистическая сила – это вероятность найти значимость [как определено в согласии] с определенной вероятностью [условно .8], если исходное нахождение является реальным, то есть, если оно является истинным, а не ложным положительным. Чтобы сделать их предложение положительно релевантным для кризиса репликации, авторы предлагают пониженный порог значения применять только к новым испытаниям гипотез. Другими словами, они просят, чтобы мы сообщали о новом исследовании, только если p <.005, позволяя нам реплицировать его с помощью p <.05. [Это предложение ставит вопрос о том, как мы знаем, что такое новый тест.]

Это предложение затягивания винтов интересно, но оно флиртует с непоследовательностью. Вспомните старое высказывание, что Бог любит p = .055 не менее (или не намного меньше), чем любит p = .045 (и доказательство профессора Гельмана). Теперь Бог также не очень заботится о том, какое исследование было проведено первым, и его можно считать новым испытанием на гипотезу и которое было проведено позже. Порядок этих исследований теоретически и статистически неактуальен (Krueger, 2001). Если мы хотим провести первое и второе исследования в разных статистических стандартах, мы могли бы также изменить аргумент. Будем легкими на ранних тестах гипотез, потому что они еще не знают, что они собой представляют. Ранние испытания являются разведочными, а не подтверждающими (Sakaluk, 2016). Ранние тесты – это способ добычи ученого. Ученый понимает, что легкие ранние тесты приведут к многочисленным выводам, которые позже окажутся мертвыми, но он также понимает, что такие тесты приведут к множеству результатов, которые позже будут считаться истинными открытиями.

Бенджамин и др. знают риски ложных негативных ошибок, но они, похоже, не очень обеспокоены. Это отсутствие беспокойства является внестатистическим. Это оценочное суждение. Если они считают, что ужасы ложных срабатываний больше, чем ужасы ложных негативов, они должны отстаивать более строгий порог р. Поскольку они выступают за более строгий порог p, мы можем обратить вспять – сделать вывод, что они отрицают ложные срабатывания (Krueger, 2017). Но, как утверждают некоторые из нас, нам нужно подумать о том, какое направление наука примет при рассмотрении изменений в обычной практике (Fiedler, Kutzner, & Krueger, 2012). Тем не менее, есть статистические соображения в том, что мы можем оценить скорость, с которой ложные срабатывания и ложные негативы будут меняться с изменением порогового значения p. В экспериментах по симуляции мы обнаруживаем, что снижение порога p ухудшает общую справедливость индуктивных выводов (Krueger & Heck, 2017). Это происходит потому, что доля промахов возрастает круче, чем доля ложных положительных эффектов. Чтобы настаивать на снижении порога значимости в свете этих находок, нужно поставить большую бесполезность на ложный позитив, чем полезность на истинном положительном.

И почему .005, а не .01 или .001? Бенджамин и др. признает, что выбор такой же произвольный, как и прагматичный. Они ссылаются на социальное доказательство (многие предпочитают его) и усиленный фактор Байеса, который идет с ним. Чем ниже значение p, тем выше BF в пользу альтернативной гипотезы. Это момент истины для байесовцев среди авторов. BF, как оказалось, является логарифмически-линейным преобразованием значения p. Ничего статистического не добавляется до тех пор, пока не будут включены перья, но это еще одна история.

Отчет из 72 авторов из критической литературы по тестированию значимости. Эта литература сводится к двум утверждениям:

  1. p являются смертельно ошибочными в смысле некогерентности и ненадежности;
  2. p не являются достаточно низкими.

72 подчеркивают последний пункт, тем самым снимая подчеркивание первого. Несомненно, было бы сложно зарегистрировать обе жалобы в том же документе. Скорее всего, это было бы, как старый еврейский клочок: «Еда была ужасной, а порции были такими маленькими!»

Существует третий пункт, который касается не статистических основ, а об их использовании. Критики жалуются, что исследователи бессмысленно или рабски используют порог значимости, чтобы сделать категорические выводы о наличии или отсутствии «чего-то». Даже Фишер или Нейман и Пирсон не выступали за жесткое принятие решений. Фишер рассматривал 0,05 как разумный порог, когда мало известно, и Нейман и Пирсон предположили, что исследователи должны использовать .05, .01 или .001 в зависимости от относительных утилит двух типов ошибок. Теперь 72 приблизились к требованию нормативного изменения, нового критерия значимости, который был бы обязательным с точки зрения социального согласия и редакционного документа. При этом 72 совершают то, что иначе осуждается как кардинальный грех ST, рисование яркой линии между быть и не быть.

Существует действительно психология яркой линейной классификации. Ранний Tajfel (например, 1969) предложил теорию акцентуации как способ понять различные последствия произвольной (и не произвольной) категоризации. Он сообщил о воспроизводимом результате, что значения, помещенные в континуум, воспринимаются как соответственно меньшие и большие, если они падают влево (меньше) или правую (большую) сторону точки демаркации (Krueger & Clement, 1994). Перцептивная акцентуация в области статистических показателей и решений не является особой болезнью, исходящей из ST.

Последнее осложнение, скрывающееся в отчете 72, – это то, что нужно делать с прошлыми результатами. Возможно, 72 означает, что все выводы с .05> p> .005 не учитываются. Действительно, этот вывод следует из их предложения. Как отмечалось выше, Бог (и Фишер) не заботится об относительной хронологии результатов. Здесь 72 могут иметь значение. Они могут выбрать запись и отказаться от всех своих прошлых результатов с помощью .05> p> .005. Любая потенциальная последующая репликация этих результатов несущественна, потому что она должна – по их собственной логике – никогда не происходить.

[1] Айшилос, вводя эти слова в рот Афины, подчеркивает силу убеждения над властью. Точно так же наша научная практика должна отвечать аргументированному аргументу, а не провозглашению авторитетом.

Бенджамин, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson V. (2017, 22 июля). Переопределите статистическую значимость . Получено с сайта osf.io/preprints/psyarxiv/mky9j

Fiedler, K., Kutzner, F., & Krueger, JI (2012). Длинный путь от контроля до собственно действительности: проблемы с недальновидными ложноположительными дебатами. Перспективы психологической науки, 7 , 661-669.

Krueger, J. (2001). Нулевое тестирование значимости гипотез: О выживании ошибочного метода. Американский психолог, 56 , 16-26.

Krueger, JI (2017). Обратный вывод. В SO Lilienfeld & ID Waldman (Ред.) Изучаемая психологическая наука: недавние проблемы и предлагаемые решения (стр. 110-124). Нью-Йорк, Нью-Йорк: Wiley.

Krueger, J., & Clement, RW (1994). Основанные на памяти суждения о нескольких категориях: пересмотр и расширение теории акцентуаций Tajfel. Журнал Личности и социальной психологии, 67 , 35-47

Krueger, JI, & Heck, PR (2017). Эвристическое значение p в индуктивном статистическом выводе. Границы в психологии: педагогическая психология [Тема исследования: Эпистемологические и этические аспекты исследований в социальных науках]. https://doi.org/10.3389/fpsyg.2017.00908

Сакалук, JK (2016). Изучение малых, подтверждающих большой: альтернативная система для новых статистических данных для продвижения кумулятивных и воспроизводимых психологических исследований. Журнал экспериментальной социальной психологии, 66 , 47-54.

Tajfel, H. (1969). Когнитивные аспекты предрассудков. Журнал социальных проблем, 25 , 79-97.