Статсман всегда звонит дважды

Посмотрите еще раз на схему результатов.

Matej Kastelic/Shutterstock

Источник: Матей Кастелич / Shutterstock

Те из вас, кто обращает некоторое внимание на сцену в науке психологии, знают, что по улицам бродит еще один призрак, и его зовут « Невозможность повторить» . Большинство находок, которые сообщают нам сторожевые псы и бдительные, являются ложными в психологии, медицине, и Господь знает, где еще. Причин много, но в верхней части списка мы находим человеческие махинации. В совокупности эти махинации известны под эпитетом p-хакерства . «P» обозначает p-значение, полученное вами при тестировании статистической значимости, а «взлом» относится к набору (само) обманчивых практик, которые понижают эти p-значения ниже обычного порога .05, чтобы следователи могли объявить значительный результат в том смысле, что нулевая гипотеза шума делает полученные данные маловероятными.

Если мы рассматриваем одно исследование с p-значением, скажем, 0,03, мы не можем, исходя только из этого результата, сделать вывод, что оно было взломано. Нам понадобится некоторая информация о том, как исследователи занимались своим делом, или нам нужны результаты исследований репликации, чтобы найти выявление закономерностей. Если есть одна попытка репликации, и она дает p = .07, было бы так же безрассудно объявлять первоначальный вывод недействительным, как и объявлять победу над нулевой гипотезой только после первого исследования. Больше данных (как они пишут в эти дни) необходимо.

Предположим, у нас есть несколько исследований репликации. Теперь сюжет утолщается. Мы можем посмотреть на распределение значений p и использовать инструменты анализа p-кривой (Simonsohn, Nelson, & Simmons, 2014). Основная идея заключается в том, что при любом наборе рациональных допущений распределение частот значений p может быть искажено, но оно будет унимодальным. Не должно быть никаких локальных пиков, и не должно быть определенного пика в сладкой области между 0,05 и 0,01, области, которая одновременно приносит значение и экономит ресурсы. Этот локальный пик был бы подозрительным, потому что мы знаем, что распределение значения p является плоским (равномерным) при истинной нулевой гипотезе и все более искажается (с более маленькими значениями p) при ложной нулевой гипотезе (Krueger & Heck, 2018) ,

Анализ P-кривой не использует доступную информацию. Просматривая ряд исследований, мы также имеем – или можем вычислить – информацию о размере выборки (или степенях свободы) и размере эффекта. В ходе исследований взаимосвязи между p-значениями, размером выборки (df) и величиной эффекта (ES) могут быть выявлены или, по крайней мере, они могут – как любят говорить современные эксперты – «поднимать вопросы».

Чтобы проиллюстрировать потенциал такого подхода [и он может быть не нов,] я использую данные из публикации Lasaletta et al. (2014), опять же, не для того, чтобы оспаривать авторов, а для того, чтобы попробовать своего рода статистический анализ паттернов Авторы стремились проверить интересную гипотезу о том, что пребывание в ностальгическом настроении уменьшает потребность в деньгах и их оценку. В шести исследованиях они обнаружили, что ностальгия повышает готовность платить за продукты, увеличивает щедрость в игре диктатора, уменьшает воспринимаемую важность денег, уменьшает воспринимаемую ценность денег, увеличивает готовность терпеть отвращающие стимулы за определенную сумму денег. и уменьшает воспринимаемый размер определенных монет. Шесть значений р: 0,031, 0,020, 0,045, 0,027, 0,062 и 0,026. Обратите внимание на кластеризацию в сладкой области между 0,05 и 0,01, за одним допустимым исключением. Это дает только слабые основания для беспокойства, потому что авторы могли предсказать средний размер эффекта повсюду, провести силовой анализ и собрать рекомендуемый образец (но они не сообщают, что сделали что-либо из этого). Размеры эффекта: .55, .48, .46, .48, .37 и .63. Они являются средними (где d составляет около 0,5, где d представляет собой отношение разницы между средними по стандартному отклонению внутри группы). Но есть также различия в df (размер выборки), а именно, 67, 125, 81, 98, 102 и 56.

Теперь мы можем соотнести p, df и ES и спросить, вызывают ли результаты «вопросы». Вот что мы получаем: во-первых, корреляция между p-значениями и ES, r (p, ES), равна -.71. Большие размеры эффекта идут с меньшими p-значениями. Это то, что мы ожидали бы, если бы предсказали один и тот же средний эффект для всех шести исследований, что привело бы к одинаковому анализу мощности и одинаковому df. Тогда ES, не будучи полностью идентичным по исследованиям, отрицательно коррелирует с p. Во-вторых, корреляция между размером выборки (df) и размером эффекта (ES), r (df, ES), составляет -.68. Большие ES идут с меньшими образцами. Это то, что мы ожидали, если бы предсказывались различия в ES, а анализ мощности дал разные рекомендации по размеру выборки. Таким образом, у нас есть одна корреляция, r (p, ES), которая имеет смысл, если бы была предсказана постоянная и средняя ES, чтобы df могла быть постоянной. И у нас есть другая корреляция, r (df, ES), которая имеет смысл, если было предсказано изменение ES, чтобы небольших выборок хватило для больших ожидаемых эффектов. Это одно или другое, а не оба.

Наличие двух противоречивых корреляций «ставит вопросы» о третьем, корреляции между df и p. Мы находим, что r (df, p) = .03. Более крупные выборки могут давать те же значения p (в среднем), что и небольшие выборки, если были предсказаны различия в ES, а анализ мощности дал различные размеры выборок. Другими словами, точный

Прогнозы мощности сужают диапазон получаемых значений p и отделяют их от df.

Для обзора ЭС отрицательно коррелирует как с р, так и с df. То есть, когда размер эффекта увеличивается, значения p и размеры выборки становятся меньше. Это противоречивый результат. Опять же, мы можем представить, как по мере увеличения ES, p уменьшается без изменения df. И мы можем представить, как по мере увеличения ES, df уменьшается без значительных изменений в p. Но мы не можем представить и то и другое одновременно. Теперь мы можем спросить, какую корреляцию между p и df мы вправе ожидать, если бы не было различий в ES, которые отрицательно коррелировали бы с p и df. Частичная корреляция между p и df, учитывающая ES, равна -.89. Таким образом, если вариация ES неизвестна, более крупные выборки будут давать более низкие значения p. Это не произошло здесь, и возникает вопрос: почему существует значительный разброс в df, в результате чего df не имеет отношения к p?

Альтернативный анализ

Отвечая на это эссе, Ули Шиммак предложил этот анализ:

Тест недостаточной дисперсии является наиболее мощным тестом смещения публикаций (или некоторых других подозрительных QRP).

Шаг 1
Преобразуйте p-значения в z-показатели, используя z = -qnorm (p / 2)

p = c (.031, .020, .045, .027, .062, .026)
z = -qnorm (p / 2)
Z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Шаг 2
Вычислить дисперсию z-показателей
var.z = var (z)
var.z
[1] 0,02808286

Шаг 3
сравнить наблюдаемое отклонение с ожидаемым отклонением (стандартное отклонение z-показателей = 1)
pchisq (var.z * (k-1), k-1) с k = количеством значений p (6)

> pchisq (var.z * 5,5)
[1] 0.0003738066

Вывод: вероятность того, что значения p вытекают из ряда независимых исследований, очень мала, p = .0004. Фишер давно наблюдал: «Политический принцип, согласно которому статистика может подтвердить все, вытекает из практики только выбранное подмножество доступных данных »(Fisher 1955, p. 75) [спасибо Деборе Майо за цитату]

https://replicationindex.wordpress.com/…/the-test-of…/

Рекомендации

Крюгер, JI & Heck, PR (2018). Тестирование значимости тестирование. Коллабра: Психология, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C. & Vohs, KD (2014). Ностальгия ослабляет стремление к деньгам. Журнал Consumer Research, 41 , 713-729.

Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). P-образная кривая: ключ к хранилищу файлов. Журнал экспериментальной психологии: общий, 143, 534–547