Жизнь и времена P

Wikipedia; public domain
Источник: Википедия; всеобщее достояние

Totgesagte leben länger. [«Те, кто произносил мертвых, живут дольше» или в вульгарной латыни: «Declaravit iam mortuum vivere»] ~ Происхождение неизвестно

Я надеюсь, что значения p являются законными мерами. В противном случае я ничего не узнал в статистике . ~ Лорен Крюгер, студентка бизнеса и финансов, Маастрихтский университет

Статистика – это вероятность, и ни один индекс вероятности не видел столько же использования и столько злоупотреблений, как так называемое p- значение (см. Здесь для более раннего эссе). Мало p выражает вероятность того, что данные (или данные более экстремальные) предполагают, что конкретная гипотеза (т. Е. Теоретическая модель действительности) правильна. Часто эта теоретическая модель является теоретической в ​​том смысле, что она предполагает, что там ничего нет. Вы можете сказать, я не верю, что вы можете сказать разницу – от дегустации в одиночку – между добавленным молоком к чаю и чаю, добавленным к молоку. Сказать, что вы не можете сказать, что разница заключается в том, чтобы сказать, что каждый раз, когда вы пытаетесь, у вас есть вероятность .5 быть правильной. Если тогда вам удастся выполнить 8 из 10 попыток, p = 0,055 с односторонним тестом. По соглашению, мы были бы заинтригованы вашими успехами, но мы бы не сделали вывод, что у вас была очевидная способность к порядку заливки.

P всюду. Будь то оценка ассоциаций между эмпирическими переменными или различиями в средствах, медианах, рангах или пропорциях, p дает общую метрику. Статистика теста может варьироваться (r, b, t, F, chi-square, U или W), но p делает их сопоставимыми. Тем не менее, многие статистики ненавидят p из-за неправильного толкования и неправильного использования, которое мы все видели, или из-за того, что p не является и не претендует на роль, а именно вероятности гипотезы с данными. Первые основания для сердитости – это отвлечение, потому что они относятся к восприятию р, а не к его природе. Последние спорны, потому что р , если бы он мог говорить, не утверждал бы, что он равен его обратной условной вероятности. Ясно, что вероятность данных, данных гипотезе, p (D | H), не может претендовать на вероятность гипотезы с данными, p (H | D). Только люди, которые не понимают, как связаны обратные условности, могут сделать это, что возвращает нас к проблеме невежества и неправильного использования.

Часто неуважение к p смешивается с или оправдывается презрением к нулевому тестированию гипотез. Нулевая (или нулевая) гипотеза о неэффективности часто изображается как соломенный человек. Мы уже знаем, что это ложь, поэтому показывая, что это неверно, сообщая о низком значении p, – это шарада, маскирующаяся как наука. В самом деле? Знаем ли мы, что у вас есть способность определить, был ли чай добавлен в молоко или молоко к чаю (или заметная «способность» вернуть его назад)? Нулевые гипотезы устанавливаются в качестве проверяемых прогнозов, когда разумный человек не ожидает, что там не будет. Затем, когда в хорошо продуманном и реплицированном наборе исследований p остается низким, мы имеем (вероятностное) доказательство существования.

В течение столетия кричали о ужасах p , а в последнее время он снова достигает лихорадки, в значительной степени потому, что скандальные злоупотребления p были привлечены к нашему вниманию, а не потому, что выявлены присущие ему ужасы метода, либо умной математикой, либо авто-да-фе . К кому вы обращаетесь за авторитетное суждение относительно p и его использования? Американская статистическая ассоциация, конечно!

И вот! ASA поднялась до этой задачи и выступила с заявлением относительно р . Совет созвал и пригласил экспертов разных школ мысли предложить свою оценку, и в итоге был опубликован разумный и осторожный отчет (Wasserstein & Lazar, 2016). Тенор состоит в том, что значение p имеет некоторую доказательную ценность, но его легко неправильно интерпретировать и использовать неправильно. Следует принять меры к тому, чтобы использовать другие статистические инструменты. Это едва ли осуждение р- ценностей как работы дьявола. Также не является декларацией о том, что существуют альтернативные методы, которые настолько явно превосходят, что тестирование значимости и отчетность p могут и должны быть отменены. Другими словами, отчет ASA примечателен тем, что он не говорит. Исследователи и их ученики могут вести себя так, как они есть, пытаясь быть этичными и внимательными. Не больше, не меньше.

Отчет ASA – это работа комитета, отражающая сгущение целого ряда мнений в одном повествовании, предназначенном для минимизации разногласий в среднем. Интересно (и кредит ASA), 21 комментарий публикуется вместе с отчетом в качестве дополнительных материалов. Май писателей, похоже, участвовал в подготовке отчета ASA, поэтому их индивидуальные оценки представляют собой интересное окно в вариации мнения, которое обобщается в отчете. Вот несколько тем, которые появляются в отдельных комментариях:

В моем чтении четыре комментария (Бенджамин и Бергер, Карлин, Джонсон и Ротман) явно выступают за отказ от значения p (т. Е. Группа без остатка – большинство, p = .007, двухвостый). Остальные неохотно признают, что p имеет некоторые виды использования, что другие методы (особенно байесовские вычисления) имеют одинаковые или разные проблемы или что «реальная» проблема не является каким-либо конкретным статистическим индексом, а более широким эпистемологическим контекстом. Некоторые из комментаторов даже решительно поддерживают использование значения p, если они правильно поняты. Вот некоторые памятные цитаты из 7 из 21 комментария:

«Что сделало p-ценность столь полезной и успешной в науке на протяжении всего 20-го века, несмотря на неправильные представления, столь хорошо описанные в заявлении? В некотором смысле он предлагает первую линию защиты от обмана с помощью случайности, отделяя сигнал от шума, потому что требуемые модели проще, чем любые другие статистические инструменты ». ~ Benjamini

«Иногда, особенно при использовании новых научных технологий, p-значение является единственным способом количественной оценки неопределенности». ~ Benjamini

«Значения P – это удобные меры конечности и служат для описания набора чисел так же, как и для Z-показателей и доверительных интервалов». ~ Berry

P-значения "служат для описания набора данных, и в этом смысле они являются полезными инструментами." ~ Berry

«Это не проблема отказа от П-ценностей, это проблема отказа от плохих исследований». ~ Ионандидис

«P-ценности будут продолжать предлагать полезные идеи». ~ Иоаннидис

P-значения являются «показателем для показательного значения данных в статистической модели». ~ Lew

«P-ценности – полезный и защитный ответ на вопрос о том, что говорят данные». ~ Лью

«Неправильно утверждать, что значение p является« недействительным », поскольку не соответствует предыдущей вероятности, основанной на том или ином предыдущем распределении». ~ Маленький

«П-ценности должны сохраняться для ограниченной роли как части механизма статистических ошибок-ошибок». ~ Senn

«Наука развивается отчасти, исключая потенциальные объяснения данных. p-values ​​помогают оценить, адекватно ли данное объяснение ». ~ Старк

Но . , ,

проблемы и злоупотребления остаются проблемой. Когда googling «значение p», в первую очередь приходит эссе Деборы Рамси. Написав для dummies.com, Деб заявляет, что « небольшое значение p (обычно ≤ 0,05) указывает на убедительные доказательства против нулевой гипотезы, поэтому вы отвергаете нулевую гипотезу» . Она просит нас проглотить ее аргумент с помощью примера, побуждающего нас вообразить, что « место для пиццы утверждает, что время доставки составляет 30 минут или меньше, но вы думаете, что это больше. Вы проводите тест на гипотезу, потому что считаете нулевую гипотезу Хо, что среднее время доставки составляет 30 минут, неверно. Ваша альтернативная гипотеза (Ха) заключается в том, что среднее время больше 30 минут. Вы произвольно выбираете время доставки и запускаете данные через тест гипотезы, а ваше значение p оказывается 0,001, что намного меньше 0,05 ».

И, конечно же, вы понимаете, что De заявляет, что « в реальном выражении вероятность 0,001 будет ошибочной, если вы ошибочно отвергте требование пиццы о том, что время их доставки меньше или равно 30 минутам ».

Это было только так. У ASA есть много работы.

Wasserstein, RL, & Lazar, NA (2016). Утверждение ASA о p-значениях: Контекст, процесс и цель. Американский статистик, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

Комментарии здесь