Сексизм, Тестирование и «Академическая Способность»

Когда я преподавал курс бакалавриата по эволюционной психологии, мой подход к тестированию и оценке был уникальным. Вы можете прочитать об этой философии более подробно здесь, но суть моего метода заключалась в том, чтобы избегать форматов с несколькими вариантами в пользу коротких эссе с неограниченной возможностью ревизии со стороны студентов. Я одобрил этот формат экзамена по ряду причин, главным из которых было то, что (а) я не чувствовал, что тесты с множественным выбором были очень хорошими в оценке того, насколько хорошо ученики понимают материал (запоминание и хорошее угадывание не равны пониманию), и (б) Мне все равно не хотелось, чтобы мои ученики оценивали меня настолько, насколько мне хотелось, чтобы они изучали материал. Если они не поняли его должным образом с первой попытки (и очень немногие учащиеся), я хотел, чтобы у них была способность и мотивация продолжать заниматься этим, пока они не поняли это правильно (что в конечном итоге было сделано, средний класс для каждый экзамен начался около 70 лет и вырос до 90). Для сегодняшнего обсуждения важным моментом здесь является то, что мои экзамены были немного более познавательными, чем обычно, и, согласно новому документу, это означает, что я непреднамеренно предвзято оценил свои экзамены так, чтобы не упустить «исторически недостаточно обслуживаемые группы», женщин и бедных.

Flickr/getradwithbrad
К сожалению …
Источник: Flickr / getradwithbrad

Однако я заметил, что это был первый пресс-релиз, который сопровождал его. В частности, авторы цитировались как то, что я нашел, ну, немного странно:

«На первый взгляд можно предположить, что различия в эффективности экзамена основаны на академических способностях. Тем не менее, мы контролировали это в нашем исследовании, включив в наш анализ средние показатели входящего уровня учащихся »,

Таким образом, авторы полагают, что разрыв в производительности по академическим испытаниям возникает независимо от академических способностей (в зависимости от того, что они влекут за собой). Это подняло непосредственный вопрос в моем сознании того, как каждый знает, что способности одинаковы, если у них нет метода их тестирования. Кажется немного странным сказать, что способности одинаковы на основе одного набора тестов (тех, которые предоставили входящие GPA), но затем продолжать предполагать, что способности одинаковы, когда другой набор тестов дает противоположный результат. В интересах удовлетворения моего любопытства я отследил газету, чтобы увидеть, что было на самом деле сообщено; в конце концов, эти небольшие новостные сообщения часто приводят к неправильной детализации. К сожалению, этот, похоже, точно отражает взгляды автора.

Итак, давайте начнем с краткого обзора того, что искали авторы. Статья, написанная Wright et al (2016), основана на данных, собранных с трехлетней стоимостью трех вводных курсов по биологии, охватывающих 26 разных инструкторов, приблизительно 5000 студентов и 87 различных экзаменов. Без излишней излишней детализации тесты были оценены независимыми оценщиками в отношении того, насколько они когнитивно оспаривают их, их формат и учащиеся классифицируются в соответствии с их гендерным и социально-экономическим статусом (SES, измеряется ли они для программы финансовой помощи). Для того, чтобы попытаться и контролировать успеваемость, Райт и др. (Wright et al., 2016) также посмотрели на ГПД первокурсника студентов, поступающих на занятия по биологии (на основании примерно 45 кредитов, как нам сказали). Поскольку авторы контролировали входящий GPA, они надеются убедить читателя в следующем:

Это подразумевает, что, по крайней мере, одна мера, эти ученики имеют равные академические способности, и если они имеют дифференциальные результаты на экзаменах, то факторы, отличные от способности, вероятно, влияют на их эффективность.

Теперь можно утверждать, что у академических способностей больше, чем захвачено GPA – именно поэтому я сделаю это через минуту, но давайте продолжим то, что авторы нашли в первую очередь.

Когнитивно-пробный тест был действительно, но более сложным. Например, статистически средний учащийся-мужчина, как ожидается, будет делать примерно на 12% хуже на самом сложном тесте в своей выборке по сравнению с самым простым. Однако этот эффект не был таким же между полами. Опять же, использование статистически средних мужчин и женщин, когда тесты были наименее когнитивно сложными, фактически не было различий в производительности (около 1,7% ожидаемой разницы в пользу мужчин); однако, когда тесты были наиболее когнитивно сложными, ожидаемый разрыв вырос до удивительной ожидаемой … 3,2% -ной разницы. Таким образом, хотя гендерная разница почти номинально удвоилась, с точки зрения действительно важного в каком-либо практическом смысле этого слова, ее размер был таким, что, вероятно, его не заметили бы, если бы он действительно не искал его. Аналогичная картина была обнаружена для SES: когда тесты были легкими, не было никакой разницы между теми, кто был низким или высоким в SES (1,3% в пользу тех, кто выше); однако, когда тесты были максимально сложными, эта ожидаемая разница выросла примерно до 3,5%.

Flickr/Landon
Полезно как для обнаружения статистических всплесков, так и для сжигания насекомых
Источник: Фликр / Лэндон

Можно многое сказать об этих результатах и ​​о том, как они оформлены в документе. Во-первых, как я уже упоминал, они действительно являются незначительными различиями; существует очень мало случаев, когда разница в тестах на 1-3% собирается сделать или сломать студента, поэтому я не думаю, что есть какая-то настоящая причина для беспокойства или корректировки тестов; во всяком случае, практически.

Однако в документе возникают большие теоретические проблемы. Один из них заключается в том, что авторы часто используют фразу «контролируемая для академических способностей», так что читатель может действительно поверить в то, что они сделали из простого повторения. Проблема здесь, конечно же, в том, что авторы этого не контролировали ; они контролировали GPA. К сожалению, для представления Wright et al (2016) эти две вещи не являются синонимами. Как я уже говорил, странно сказать, что академические способности одинаковы, потому что один набор тестов (входящий GPA) говорит, что они находятся в то время как другой набор нет. Первый набор тестов, по-видимому, имеет привилегию без какой-либо разумной причины. Из-за этого необоснованного толкования авторы теряют (точнее, целенаправленно удалить) способность говорить о том, как эти пробелы могут быть связаны с некоторой разницей в производительности. Это полезный риторический шаг, если вы заинтересованы в адвокации, поскольку это означает, что разрыв является несправедливым и должен быть каким-то образом зафиксирован, но не в том случае, если человек ищет правду.

Еще одна довольно большая проблема в документе заключается в том, что, насколько я могу судить, авторы предсказали, что они найдут эти эффекты, даже не объясняя, как и почему возникло это предсказание. То есть, что заставило их ожидать, что мужчины будут превосходить женщин, а богатые превзойдут бедных? Это в конечном итоге является чем-то вроде проблемы, потому что в конце статьи авторы делают несколько возможных (непроверенных) объяснений их результатов. Первая из них – стереотипная угроза: идея о том, что некоторые группы людей будут плохо работать на тестах из-за какого-то негативного стереотипа об их исполнении. Это плохо подходит для данных по двум причинам: во-первых, в то время как Wright et al (2016) утверждают, что стереотип «хорошо документирован», он на самом деле не реплицируется (помимо теоретического смысла). Во-вторых, даже если это было реальностью, угроза стереотипов, как она обычно изучалась, требует, чтобы какой-то пол был сделан существенным до начала теста. Когда я столкнулся с полным количеством нулевых тестов в течение всего моего опыта колледжа, который сделал мой гендерный характер, а тем более мой SES, я могу только предположить, что эти тесты не сделали этого. Для того, чтобы стереотипная угроза работала как объяснение, женщины и бедные должны были находиться под относительной постоянной угрозой стереотипов. В свою очередь это сделало бы угрозу документирования и студенческого стереотипа в первую очередь довольно сложной, поскольку у вас никогда не было бы условия, когда ваши испытуемые не испытывали бы этого. Короче говоря, стереотипная угроза кажется плохой.

Другие объяснения, которые выдвигаются для этой гендерной разницы, – это возможность того, что женщины и бедные студенты имеют более фиксированные взгляды на интеллект, а не на рост мышления, поэтому они уходят из материала, когда его оспаривают, а не улучшают (то есть «нам нужно изменить их умозаключения, чтобы закрыть этот сложный 2-процентный разрыв) или возможность того, что сами тестовые вопросы написаны так, чтобы тонко уклонялись от способности людей думать о них (пример, который авторы поднимают, заключается в том, что вопрос, связанный с применением какой-либо концепции для спорта, может способствовать мужчины, по сравнению с женщинами, поскольку мужчины склонны больше заниматься спортом). Учитывая, что авторы действительно имели доступ к тестовым вопросам, кажется, что они могли бы изучить эту последнюю возможность, по крайней мере, в некоторых деталях (возможно, минимально, если посмотреть, были ли тесты, написанные преподавателями-женщинами, разными результатами, чем те, которые были написаны мужчиной или путем изучения содержания самих вопросов, чтобы увидеть, хуже ли женщины по гендерным вопросам). Почему они не проводили такие анализы, я не могу сказать.

Flickr/Stephen Downes
Возможно, это была слишком большая работа, и им не хватало мышления
Источник: Flickr / Stephen Downes

Таким образом, эти незначительные средние различия, которые были обнаружены, могут быть легко записаны – очень просто – к GPA, не являющемуся полной академической способностью студента. Фактически, если тесты, определяющие GPA первокурсника, не являются наиболее когнитивно сложными (как можно было бы ожидать, учитывая, что студенты принимали бы в основном общие вводные курсы с большими размерами классов), то это может заставить учащихся выглядеть более аналогичные по способности, чем они были на самом деле. Можно подумать об использовании этого стереотипно-мужского примера (который, несомненно, будет препятствовать способности женщин думать об этом): представьте, что я тестировал людей в комнате с весом от 1 до 15 фунтов и просил их завивать каждый раз. Это дало бы мне плохой смысл для каких-либо существенных различий в силе, потому что диапазон тестируемой способности был ограничен. Если бы я попросил их сделать то же самое с весами от 1-100 фунтов на следующей неделе, я мог бы сделать вывод, что это что-то о весах, а не о способностях людей, – когда дело дошло до выяснения причин внезапности появления различий (поскольку я ошибочно полагаю, что я уже контролировал свои способности в первый раз).

Теперь я не знаю, действительно ли что-то подобное отвечает, но если тесты, определяющие первоклассный ГПД, задействовали одни и те же способности в тех же степенях, что и в изученных курсах биологии, тогда контроль за ГПД должен был позаботиться об этом потенциальная проблема. Поскольку контроль за GPA не сделал, я чувствую себя в безопасности, предполагая, что в тестах есть какая-то разница в отношении того, какие способности они измеряют.

Ссылки: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M., & Brownell, S. (2016). Когнитивная сложность и формат экзаменов предсказывают гендерные и социально-экономические пробелы в экзаменационных результатах студентов во вводных курсах биологии. Образование в области естественных наук, 15.