Ложные корреляции Тайлера Вигена: обзор книги

Книга Тайлера Вигена « Поддельные корреляции» – это тепло, смешно и делает несколько очень важных моментов. По словам Вигена, его книга основана на десятках корреляций между полностью несвязанными наборами данных. Он полагался на компьютер, чтобы генерировать случайные корреляции между продуктами Pearson (r) между такими бессмысленными переменными, как государственная средняя школа и потребление сметаны. И на самом деле, соотношение между общеобразовательным школьным образованием и потреблением сметаны довольно велико, r = .95. Мало того, что это случайное и бессмысленное, но большая проблема заключается в том, что каждый день мы видим такую ​​глупость, и люди основывают выводы на этих корреляциях. Например, меня беспокоит школьная регистрация. Эта высокая корреляция означает, что если я буду есть больше сметаны, дети будут оставаться в школе?

Книга Вигена очень увлекательна, потому что у него почти две сотни этих глупых, случайных корреляций, которые происходят из серьезных баз данных. Например, когда данные Центра по контролю за заболеваниями, CDC, коррелируют с данными из базы данных интернет-фильмов, он обнаружил, что появление фильмов Бена Аффлека имеет очень высокую корреляцию с случайными отравлениями пестицидами, r = .92. Означает ли это, что фильмы Бен Аффлека вызывают случайные отравления пестицидами? Конечно нет. Как известно большинству магистрантов-психологов, корреляция не предполагает причинности. Корреляция – это просто математическая связь между двумя наборами данных. Это означает, что две переменные идут вместе или ковариация.

Несмотря на забаву и глупость, эта книга демонстрирует многие важные принципы. Наряду с 1) будьте осторожны в интерпретации данных и 2) корреляция не предполагает, что причинность является третьей концепцией ложной корреляции. Фактически, книга Вигена называется «ложные корреляции». Строго говоря, паразитная корреляция заключается в том, что связь между переменными с сильной корреляцией объясняется третьей переменной. Это то, где книга Вигена становится еще интереснее. Вот еще один пример. Мартовский доход от рекламы Madness и пивоваренные заводы в США коррелируют .94. Так как рекламные доходы растут, так пивоваренные заводы. Могли ли они оба объяснить бум экономики? Лучшая экономия приводит к большему количеству денег, чтобы тратить на все, включая телевизионную рекламу и пивоварни. И это говорит о другом принципе социальных наук, «Законе о партиях». В Законе о партиях говорится, что когда вещи неоднозначны, самое простое объяснение, объясняющее большинство наблюдений, является лучшим.

Хммм … теперь все становится сложным. Недостаточно наблюдать корреляционную зависимость между переменными и перейти к выводу. К сожалению, это происходит постоянно, и именно поэтому эта книга является таким большим дополнением к формальному классу в статистике. Во всяком случае, становится очевидным, что социальная наука – это рассуждение, логика, а не просто случайные компьютерные корреляции. Мы используем дедуктивные рассуждения, чтобы сформировать гипотезы, индуктивные рассуждения для проверки гипотез и тщательно воспроизвести наши выводы, прежде чем переходить к выводам. Исследования в области социальных наук являются фундаментальным упражнением в логике. К сожалению, в эпоху больших данных этого недостаточно. Ежедневно мы перегружены данными. Я даже не могу съесть шоколад от Sees, не зная, сколько калорий мне это обойдется. Ученые учатся публиковать результаты и отрицательные результаты даже не публикуются. СМИ и учителя понимают самый быстрый вывод и распространяют его, как сплетни или дети, играющие на телефоне. Все происходит очень быстро, без большой критической мысли или экзамена. И именно поэтому книга Вигена так важна. Сосредоточившись на бессмысленных корреляциях, он обращает внимание на небрежное мышление. Прочтите эту книгу для удовольствия, а затем остановитесь и подумайте о последствиях для всех бессмысленных выводов, которые мы формируем каждый день.