Черные женщины не (оценены) менее привлекательны! Наш независимый анализ добавления набора данных о состоянии здоровья

[Этот пост был в соавторстве с Jelte Wicherts]

В своем хорошо читаемом сообщении в блоге, первоначально озаглавленном «Почему черные женщины менее физически привлекательны, чем другие женщины», психолог Сатоши Каназава из Лондонской школы экономики (LSE) пришел к выводу, что он обнаружил, что афроамериканские женщины были «объективно» менее привлекательными чем американцы из Америки, Азии и Америки. Немедленные и далеко идущие ответы на его противоречивые выводы заставили Psychology Today сначала изменить название блога, а затем полностью отказаться от него.

Через несколько дней после того, как сообщение появилось на сайте, началась огненная буря. Блоггеры со всего мира выразили свое возмущение на посту. Ответы многих людей были эмоционально заряжены, и это справедливо. Многие афроамериканские женщины, которые должны испытывать дискриминацию всю свою жизнь, были расстроены и пострадали. Другие критики пытались быть аналитическими, но не рассматривали ключевые проблемы или не атаковали всю область эволюционной психологии из-за одного члена дисциплины (см. Мои мысли об этом здесь). Крупнейшая студенческая организация в Лондоне (представляющая 120 000 студентов) потребовала освобождения Канадзавы от LSE. По словам его пресс-секретаря, LSE начала внутреннее расследование в блоге, хотя представитель LSE подчеркнул академическую свободу своих исследователей.

Мы согласны с тем, что ученых не следует увольнять за совершение невежливых заявлений, которые могут оскорбить людей. Однако академическая свобода не влечет за собой права (1) неверно истолковывать данные и (2) игнорировать эмпирические данные, которые противоречат заявленным требованиям.

Мы извлекли данные из Add Health, на которых Сатоши Канадзава основывал свои выводы, чтобы выяснить, сохраняются ли его результаты для проверки. Add Health – это исследование, проведенное по национально репрезентативной выборке подростков в 7-12 классах, прошедших до взрослой жизни. Исследование включает множество переменных (более 8000 в общедоступных наборах данных), включая меры социального, экономического, психологического и физического благополучия. Когда мы впервые открыли набор данных, мы были перегружены переменными! (Одна вещь, которую мы можем поблагодарить Каназава, даже поднимает этот вопрос в первую очередь, так как мы, вероятно, обычно никогда не смотрели на переменные, которые он делал. Кроме того, следует отметить, что с таким количеством переменных неизбежно многие статистически значимые результаты в наборе данных просто из-за случайности [1].)

Как только мы, наконец, разместили соответствующие переменные, мы провели соответствующие анализы и вот что мы нашли:

1. Каназава несколько раз упоминает, что его данные о привлекательности оцениваются «объективно». Оценки привлекательности, сделанные интервьюерами, показывают чрезвычайно большие различия в отношении того, насколько привлекательными они оказались у собеседника. Например, рейтинги, собранные из волн 1 и 2, коррелируются только при r = .300 (корреляция колеблется от -1,0 до +1,00), предполагая, что можно предсказать скудные 9% различий во вторичных волновых рейтингах одного и того же индивидуума на основе оценок, сделанных за год до [2]. Оценки, сделанные на волнах 3 и 4, коррелировали между оценщиками еще ниже – всего 0,136, даже несмотря на то, что респонденты достигли совершеннолетия к тому времени и поэтому не ожидали изменения в физическом развитии так же сильно, как подростки. Хотя эти рейтинги не были приняты одновременно, если рейтинги привлекательности имеют менее 2% -ную общую дисперсию, трудно приспособиться к утверждению Канадзавы о том, что привлекательность можно оценивать объективно.

Низкая конвергенция оценок позволяет предположить, что в этом очень большом и представительном наборе данных красота в основном находится в глазах зрителя. Здесь мы рассматриваем простые оценки привлекательности интервьюеров, чьи вкусы сильно различаются. Например, один интервьюер (№ 153) оценил 32 женщины как «средний», в то время как другой интервьюер (№ 237) обнаружил почти всех 18 женщин, которых он оценил как «непривлекательный». Поскольку оценщики сильно отличаются в плане того, как они поскольку большинство из них проводили многочисленные интервью и рейтинги, этот источник изменений должен учитываться при тестировании средних разниц в рейтингах привлекательности. Каназава не указывает, что он это сделал.

2. Канадзава интерпретирует свои выводы с точки зрения привлекательности для взрослых, однако большинство его данных были основаны на рейтингах привлекательности участников, когда они были подростками . Если бы многие из нас (включая авторов этого сообщения) оценивались на протяжении всей нашей жизни, основываясь на нашей физической привлекательности в подростковом возрасте, многие из нас были бы в беде!

В приложении «Здоровье» в настоящее время имеется четыре «волны» или фазы. Вот диаграмма четырех волн и возрастных групп четырех волн:

Обратите внимание, что только волна IV фактически состоит из «Взрослых». Фактически, диапазон возрастов для волн I и Wave II составляет 12-22, средний возраст около 16 для обеих волн.

Представьте себе сценарий. Взрослые исследователи (к сожалению, мы не смогли узнать информацию о самих самих интервьюерах) вошли в дома этих участников и оценили их собственное субъективное мнение о физической привлекательности участников исследования в масштабе от 1 до 5 (от «очень непривлекательным "к" очень привлекательным "). Для волн I и II, в частности, рейтинги не могли (мы надеемся!) Относиться к рейтингам сексуальной привлекательности этих детей. Поэтому обсуждения этой темы с использованием данных веб-сайта знакомств OK Cupid действительно не подходят здесь.

Только в Волнах 3 и 4 участники были достаточно взрослыми в среднем (M = 22,2, SD = 1,9 и M = 29,00 SD = 1,8 соответственно), которые на самом деле назывались «женщины» и «мужчины», а не девочки и мальчики. Если посмотреть на данные с волн (3 и 4), в которых все опрошенные достигли законной взрослой жизни, картина результатов больше не поддерживает главный вывод Канадзавы.

В Wave 3 мы обнаружили очень незначительную разницу в рейтингах привлекательности в пользу европейских женщин, но это эффект уже не является значимым после того, как мы учитываем случайную вариацию, связанную с оценщиками.

Однако только данные из Волны 4 имеют отношение к проблеме, которую Каназава хочет решить, просто потому, что это единственная волна, состоящая из взрослых (они были собраны, когда все участники были взрослыми в возрасте 25-34 лет). К сожалению, Kanazawa не включает в себя представление этих результатов Wave 4, несмотря на то, что он использует данные «Добавить здоровье» в большинстве своих исследований, и эти данные доступны уже более месяца.

Сосредоточившись только на Волне 4, очевидно, что среди женщин в выборке нет разницы между этническими группами с точки зрения оценки физической привлекательности . Различия в распределении для женщин при тестировании с регулярным (и слегка либеральным) испытанием независимости являются несущественными и, следовательно, могут быть отнесены на случайность (PiSn's Chi-Square = 15.6, DF = 12, p = .210). Вот график, показывающий распределение рейтингов (в процентах) для 1564 европейских американцев, 553 афроамериканцев, 97 коренных американцев и 96 азиатских американских женщин (с арифметическими средствами ниже каждой группы):

Мы также проанализировали данные для мужчин в выборке и одну и ту же волну и обнаружили, что различия в расовой группе для мужчин были просто значительными (Chi-Square Пирсона = 21,2, DF = 12, p = .048), причем черные мужчины показывали несколько выше общей оценки привлекательности, чем другие этнические группы ( Примечание : этот результат не является статистически достоверным, хотя он не учитывает зависимость данных от использования из-за использования одинаковых коэффициентов). Вот этот график:

Так как это очень незначительное различие не появилось на волне 3, мы бы не сделали этого.

Канадзава утверждает, что его интересуют только «твердые» истины о человеческой природе. И правда заключается в следующем: как взрослые, черные женщины в Северной Америке не оцениваются менее привлекательно интервьюерами исследования «Добавить здоровье», которое является одним из наиболее представительных на национальном уровне образцов, когда-либо доступных для расследования .

Обратите внимание, что данные могли бы выйти в любом случае, и как бы ни оказалось, мы сообщали бы, что мы нашли. Мы считаем, что это интересная и важная тема расследования. Другие строгие рецензируемые публикации (включая гораздо менее представительную и меньшую выборку из Соединенных Штатов) показали статистически значимые средние различия в рейтингах привлекательности, основанных на этнической принадлежности.

Мы считаем, что такие исследования должны проводиться на более высоком уровне, чем другие исследовательские темы, как в научной строгости, так и в представлении (см. Здесь аналогичный аргумент). Это должно быть особенно важно для тем, которые потенциально могут причинить вред и страдания людям в определенной группе. Наука не работает в вакууме. Строгая научная коллекция и ответственная научная отчетность важны не только для прогресса науки, но и для улучшения общества (разве это не точка психологии?).

Даже если хорошие, тщательные исследования в конечном итоге показывают, что черные женщины оцениваются по-разному в среднем по соответствующим характеристикам (хотя это маловероятно, учитывая репрезентативность этого набора данных), действительно могут быть последствия для расизма. Путь к борьбе с расизмом, хотя и не должен его игнорировать (см. Здесь для соответствующего аргумента), но понять, как и почему он развивается, занимаясь полным спектром потенциальных причинно-следственных объяснений , от биологического, культурного обучения, до био-социокультурного обучение.

Эрл Хант и Джерри Карлсон предлагают 10 принципов проектирования, анализа и отчетности, которые следует тщательно учитывать при выполнении или оценке исследований групповых различий (они сосредоточены на различиях в интеллекте, но их принципы в равной степени применимы к исследованию различий в привлекательности). Полный документ можно скачать здесь, и мы надеемся, что он может предложить набор рекомендаций для дальнейших исследователей, которые решили провести исследование по этой теме, а также блоггеров, которые решили, что хотят передать эти результаты широкой аудитории.

Как отмечают исследователи:

«Когда ученые занимаются расследованиями, которые имеют отношение к немедленной социальной политике, как могут иметь место исследования групповых различий, обязанность ученых заключается в более высоком стандарте научной строгости в своих исследованиях, чем это необходимо, когда цель исследования исключительно для продвижения исследований в самой науке. Мы ни в какое время не утверждаем, что определенные знания должны быть запрещены на том основании, что они могут быть использованы ненадлежащим образом. Мы утверждаем, что, когда есть вероятность того, что конкретные выводы будут быстро переведены на публичные дебаты и политические решения, ученый должен быть уверен, что эти выводы имеют наивысшее качество ».

Kanazawa не соблюдает эти рекомендации во всех своих публикациях. Например, в статье о различиях расы в IQ он не только совершает несколько теоретических ошибок, но и не рассматривает альтернативные объяснения. Кстати, в этой конкретной статье он также предположил, что земля плоская!

Наука, когда она выполняется правильно, самокорректируется. Плохая наука и интерпретации заменяются более качественной наукой и более разумными и точными выводами. Если вы хотите проанализировать набор данных Add Health самостоятельно, вы можете! Здесь вы можете запросить свою собственную копию набора данных. Мы с нетерпением ожидаем дальнейшего разумного обсуждения этих важных тем, которые в значительной степени влияют на жизнь многих людей.

Вы можете загрузить более полное, более техническое резюме нашего анализа здесь.

© 2011 Скотт Барри Кауфман и Джелт Уичертс

Следуйте за Скоттом в Twitter или Facebook . Свяжитесь с ним здесь !

[1] Некоторые могут спорить с нашим использованием слова «скудный» здесь, чтобы ссылаться на корреляцию .30. Следует отметить, что эти корреляции не являются типичными корреляциями, обнаруженными в дифференциальной психологии (например, IQ с некоторой индивидуальной переменной), а скорее анализом межратерного соглашения. На основе кросс-таблицы Coapp's Kappa of Wave1-Wave2 для женщин – 196. По словам Ландиса и Коха, это следует интерпретировать как «небольшое соглашение». Каппа для Wave3-Wave4 – 0,99 – еще хуже.

[2] Наши рассуждения взяты из стандартной теории решений Пирсона-Неймана. Если предположить, что нулевая гипотеза верна для, скажем, 1000 потенциальных тестов, то ожидается, что 50 из этих тестов будут значимыми при альфа = 05. Если мы заключим на основе р <0,05 в этих 50 случаях, что действительно есть эффект, мы совершаем ошибки типа 1. Их результаты можно, вероятно, назвать «случайными» выводами, потому что мы не ожидаем, что их можно будет тиражировать просто потому, что нулевая гипотеза верна.