Теоретическая основа некоторых тестов способна подорвать или свести к нулю их валидность. Так, два из наиболее широко используемых при исследовании личности инструментов – тест Роршаха и тест "Нарисуй человека" – основываются на ошибочном тезисе Фрейда о том, что бессознательные чувства, конфликты и установки индивида проецируются в ого реакциях на чернильные пятна или же в его рисунках. Поскольку этот тезис Фрейда ошибочен и антинаучен, оба теста в равной мере далеки от науки, то есть невалидны. Можно только удивляться тому, что, хотя невалидность теста Роршаха была убедительно доказана27, большинство исследователей используют его в качестве инструмента исследования личности. Очевидно, что выводы, сделанные на основе результатов подобных невалидных тестов, не имеют никакой научной ценности.
Главными виновниками псевдонаучности поведенческих исследований являются интеллектуальные тесты. Подробные доказательства их недостаточной валидности приведены в главе 7, где опровергается расистская и антинаучная теория Дженсена о генетической умственной неполноценности негров. В многочисленных исследованиях тесты IQ либо служат для составления выборок, либо являются частью самого исследования. Выводы, сделанные на основе применения этих тестов, следует считать невалидными ввиду невалидности самих тестов.
Сравнительно недавно появились и получили распространение в качестве вполне валидных бесчисленные личностные тесты. Рассмотрение некоторых из них поможет продемонстрировать необоснованность этой претензии.
Шкала "я-концепций" Пирса-Харриса для детей ("Каким я вижу самого себя")28 состоит из 80 утверждений, против которых ребенок должен поставить ответ "да" или "нет". Вот некоторые из этих утверждений: "Я: застенчивый, не пользуюсь успехом, сообразительный, часто бываю печальным, счастливый, сильный, умею себя вести, нервный, везучий, послушный, несчастный, жизнерадостный, тупой, красивый, люблю читать". Или же: "Я: слишком много волнуюсь, умею хорошо рисовать, обладаю красивыми глазами, хорошо сплю, обладаю красивой фигурой, вызываю доверие".
Предполагается, что ответы на эти вопросы свидетельствуют о высокой или низкой "я-концепции". Негритянский ребенок, отвечающий на эти вопросы, говоря, что он "несчастный, нежизнерадостный, мало читает, плохо спит, невезучий, часто бывает печальным", получает низкую оценку "я-концепции". Но разве не условия жизни многих из этих детей подсказывают им эти вполне реалистические ответы? Ребенок, который выбирает их, может иметь достаточно высокую "я-концепцию", если определять ее на основании других черт его жизни, таких, как любовь к нему его родных, наличие достижений в других областях, уважение со стороны других детей, – и все же по шкале "я-концепции" он получит низкую оценку. Поскольку, согласно теории обучения, низкая "я-концепция" является причиной плохой академической успеваемости, вывод, следующий из этих оценок, будет означать, что плохая успеваемость негритянских детей в школе вызвана не системой обучения, а низкой "я-концепцией". Шкала ответственности за интеллектуальные достижения (Intellectual Achievement Responsibility Scale – IAR Scale)29 основана на теоретической концепции, согласно которой у людей создается определенная установка в отношении причины их преуспевания или, напротив, несостоятельности в жизни. Эта установка получила название "локус-контроль", что означает: контроль над их жизнью находится в руках внешних обстоятельств или зависят от их собственных усилий. Считается, что шкала IAR измеряет "локус-контроль" ребенка, относящийся к его академической успеваемости. Она состоит из 34 пунктов, таких, как, например: "Когда тебе трудно понять какую-то часть школьного материала, это происходит, как правило: а) потому что учитель неясно объяснил этот материал или б) потому что ты невнимательно его слушал?" В данном случае выбор явно навязан: ребенок должен выбрать либо вариант (а), либо вариант (б). Он по может ответить: "Иногда (а), а иногда (б)", что, в общем-то, в большинстве случаев и соответствует истине. Кроме того, учитель действительно может недостаточно понятно объяснить материал, но ведь ребенок-, выбравший этот ответ, будет отнесен к разряду тех, кто считает, что его жизнью управляют внешние обстоятельства, то есть получит низкий балл!
И что гораздо важнее, эта шкала использовалась для "объяснения" низкой академической успеваемости негритянских детей. Статистические исследования показывают, что негритянские дети получают более низкие оценки по шкалам IAR, чем белые дети, то есть что они в большей степени считают себя зависимыми от внешних обстоятельств. И вот делается глубоко расистский вывод о том, что низкая "степень ответственности за интеллектуальные успехи" у черных детей является причиной их плохой академической успеваемости30. Таким образом, школьная система обучения, нищета, угнетение со стороны белых и капитализм как таковой сбрасываются со счетов, и вся вина за "неадекватность" личности чернокожего ребенка переносится на внешний характер его "локус-контроля". Но неужели негритянский ребенок, живущий в расистском обществе, не имеет достаточно оснований считать, что многие вещи выходят за пределы его внутренних способностей управлять своей судьбой, что такие внешние факторы, как нищета, сегрегированные школы, плохое жилье, обусловливают его образ жизни и условия его существования? Это еще один пример того, что жертве предъявляется обвинение в том, что она – жертва.
Недавно были разработаны так называемые объективные тесты исследования личности, которые, как утверждает психолог Поль Клайн, не могут считаться валидными. Создатели этих тестов скрывают их истинное назначение и в то же время заявляют, что с их помощью можно получить точные оценки черт личности. Эти тесты включают "Личностный тест юмора IPAT"31, где испытуемым предлагается оценить предложенные юмористические сюжеты как "смешные" или "несмешные", а также "Тест на музыкальное предпочтение IPAT", где испытуемые должны ответить, понравился или не понравился им предложенный короткий музыкальный отрывок. Оба эти теста, основанные исключительно на юморе и музыке, претендуют на то, чтобы дать оценку 21 различному типу личности в диапазоне от "хладнокровного" до "эксцентричного"!32 Исследования, в которых свойства личности определяются с помощью подобных тестов, безусловно, нельзя воспринимать всерьез. Тем не менее они по-прежнему встречают одобрение.
Дайте в руки мальчишке молоток, и он везде обнаружит гвозди, которые надо забить. Это явление было остроумно названо "законом инструмента"33. Дайте психологу личностные тесты, и он примется использовать их где надо и не надо, чтобы прийти к выводам, в которых виной всему объявляется "личность", а не "система". Так, эти тесты будут предложены матерям, живущим на пособие, чернокожим безработным, детям пуэрториканцев для того, чтобы "выявить" такие свойства личности этих испытуемых, которые впоследствии будут истолкованы как причина того, что они живут на пособие, не имеют работы или же не умеют бегло читать. Такие тесты реабилитируют социальную систему и взваливают всю вину и ответственность на тех, кто является жертвой этой системы.
Обучение и карьера социологов, психологов и исследователей поведения в сочетании с давлением, которое оказывается на них, дабы они сознательно или бессознательно способствовали сохранению существующего положения вещей, уводит их от поисков ответов на важные социальные вопросы и от попыток найти объяснение реальным социальным проблемам, заставляя их довольствоваться тестами, не дающими ничего, кроме невразумительных ответов. Психолог-негр Роберт Уильямс удачно отметил: "Американская индустрия тестов... представляет собой супермаркет угнетения, ежегодно приносящий миллионные прибыли"34. Д-ра Уильямса особенно возмущает расистское использование тестов IQ и тестов личности. Благодаря подобным невалидным тестам, пишет он, "несоразмерно большое число негритянских детей попадает в школы для умственно отсталых или в классы с более низким образовательным уровнем, в классы, занимающиеся по специальным программам"35.
Необходимо сделать еще одно – последнее – критическое замечание по поводу тестов и шкал, используемых в исследованиях по методологии планирования. В связи с тем, что в основе этой методологии лежат количественные значения, результатом применения тестов и шкал должны быть численные оценки, которые могут быть подвергнуты статистическому анализу. Так, испытуемые получают оценки, например: 92 по тесту IQ Стэнфорда-Бине, 62 по шкале "я-концепции" Пирса-Харриса для детей, 26 по шкале IAR. Численные оценки по этим тестам и шкалам создают лишь видимость точности. Интеллектуальная деятельность и психологические черты личности по своей природе носят глубоко качественный характер. Точно определить их качество чрезвычайно трудно или же вообще невозможно. Следовательно, можно поставить под вопрос большинство исследований, которые используют вышеупомянутые тесты и шкалы. Во всяком случае, следует принять все меры, чтобы правильно оценить валидность применяемых в поведенческих исследованиях интеллектуальных и личностных тестов и шкал.
Экспериментальные исследования и "экспериментальное воздействие"
В подавляющем большинстве исследований, проводимых по методологии планирования, участвуют две или более групп, составленных путем выборки из популяций. Одна из таких групп – экспериментальная – подвергается "экспериментальному воздействию", а остальные группы служат в качестве контрольных. Это "экспериментальное воздействие" состоит в том, что с экспериментальной группой проводится определенная работа, которая не проводится с контрольными. Таким образом, новый метод обучения чтению являлся таким воздействием, которое было оказано на экспериментальную группу, в то время как в контрольной группе применялся обычный метод обучения чтению. Гипотеза в данном случае состояла в том, что в результате воздействия (а именно использования метода обучения чтению А) будет получена значительная разница в навыках чтения между экспериментальной и контрольной группами, то есть учащиеся экспериментальной группы будут читать лучше, чем учащиеся контрольных групп.
В чем же заключаются недостатки и ограниченность "воздействия", используемого в поведенческих исследованиях? Начнем с того, что это воздействие обычно имеет место в течение определенного периода, например метод обучения чтению А применялся в первом классе в течение года. Естественно, что невозможно установить и проконтролировать все жизненные факторы, которые могут оказывать влияние на успехи учащихся при обучении чтению в этот период. Хорошие результаты в экспериментальной группе могут быть получены не только благодаря методу А, но и по другим причинам. Они могут быть достигнуты, в частности, благодаря опытному преподавателю, который случайно или намеренно (и, надо сказать, неэтично) был направлен в экспериментальную группу. Причиной успехов может быть и усиленная забота со стороны директора школы или родителей, чьи дети попали в экспериментальную группу, стимулирующая учащихся работать усерднее и лучше концентрировать свое внимание. Эти высокие результаты могут быть также и следствием того, что в своем стремлении к успеху и осуществлению своих научных ожиданий, а также, руководствуясь небезызвестным принципом, что "ни одно пророчество не сбывается само по себе", экспериментатор может прямо или в завуалированной форме отдавать предпочтение экспериментальной группе или недооценивать контрольную (а иногда и то и другое одновременно).
В исследованиях, включающих сравнение групп белых с группами негров, расизм часто находит выражение именно в самом воздействии. Собственно говоря, во многих исследованиях расизм и есть само "экспериментальное воздействие". Расистские установки белых исследователей в ходе проведения эксперимента могут отрицательно сказаться на оценках испытуемых-негров. Многие негры – и дети и взрослые – относятся к исследованиям, проводимым белыми, с вполне оправданным беспокойством и подозрительностью и неохотно в них участвуют, а значит, не реагируют на оказываемое воздействие.
Помимо всего сказанного в ходе проведения эксперимента исследователь испытывает искушение выйти за рамки плана исследования. Он может ввести факторы, выходящие за пределы предусмотренного воздействия, или же не контролировать факторы, которые искажают его. Дополнительные занятия с учащимися экспериментальной группы и особое к ней внимание, специальные награды за успехи, а также пренебрежительное отношение к контрольной группе – все это может тенденциозно изменять воздействие в пользу экспериментальной группы.
Та часть поведенческих исследований, которая связана с воздействием, является, таким образом, весьма сомнительным элементом этих исследований. И если выводы, к которым приводят такие исследования, являются социально реакционными, то причину этого можно с полным правом искать именно здесь, в оказываемом "воздействии".
Игра в числа: статистика и планирование исследования
Само упоминание статистики должно вызвать у честных и прогрессивно мыслящих людей подозрение, что здесь "не все чисто". С помощью статистики число безработных сокращается вдвое. Этот остроумный маневр состоит в том, что из общего числа безработных исключаются новички, рабочие, занятые неполный рабочий день, женщины, которые не по своей воле снова превратились в домохозяек, и те, кто слишком отчаялся, чтобы продолжать поиски работы.
Фогель и Энгерман в своей книге крайне расистского толка "Time on the Cross" использовали статистику, чтобы "продемонстрировать", что рабы в Соединенных Штатах знавали, как сардонически выразился историк Герберт Аптекер, "восхитительные денечки в Дикси36"37. Фогель и Энгерман воспользовались совершенно ненадежной, тенденциозной и фальшивой статистической информацией Бюро переписи для обработки своих данных и документального представления полученных ими "результатов"38. Стали бы вы принимать на веру слова рабовладельца о состоянии здоровья и условиях жизни его рабов? А ведь именно подобные россказни были взяты Бюро переписи за основу статистики о положении рабов!
В поведенческих исследованиях для получения выводов используется статистический анализ. Это означает, что оценки, получаемые испытуемыми при тестировании, подвергаются проверке на значимость с целью установить, имела ли место по меньшей мере 95-процентная вероятность правильности данной гипотезы. Статистический анализ (например, дисперсионный) производят с помощью сложных формул. В паше время настоятельной необходимостью для проведения такого анализа стало использование ЭВМ. И хотя сам по себе этот факт свидетельствует о прогрессе в области статистического анализа, лишь специалистам по ЭВМ известно, какие манипуляции со статистикой происходят благодаря этому, ведь использование вычислительных машин создало новые возможности для подтасовки данных в пользу исследовательской гипотезы.
Исследования, проводимые на основе методологии планирования, – это вероятностные исследования; следовательно, они не гарантируют 100-процентной точности. Это значит, что всегда существует вероятность того, что такое-то конкретное исследование может оказаться ошибочным. Согласно критерию 95-процентной вероятности, одно из каждых 20 исследований обязательно содержит ошибочные данные. Профессор Энтони Синьорелли из Юнион-Колледж утверждает: "Статистический метод ведет к оценке общности и вероятности. Выводы на основе полученных таким образом результатов, формулируются в терминах вероятности и потому не могут считаться точными"39.
Кроме того, подчеркивает Синьорелли, всего лишь одно-единственное исключение из физического закона может опровергнуть этот закон, в то время как методология планирования исследования допускает по крайней мере 5% исключений, а ведь любое из них может оказаться достаточно значимым, чтобы поставить под вопрос закон, сформулированный на основе 95-процентной вероятности. Следует заметить, продолжает Синьорелли, что "интеллектуальные тесты и личностные и диагностические шкалы требуют вычисления средних значений и корреляций", а потому отличаются все той же неточностью и сомнительностью.
Таким образом, в исследованиях, проводимых на основе методологии планирования, невозможно достичь необходимой верности выводов и точности результатов. В самом деле, чересчур точные результаты ставят под сомнение само исследование. Пример этого приводится в главе 7: работы Сирила Берта по исследованию идентичных близнецов, которые Дженсен использовал в качестве подтверждения своей теории о генетическом наследовании интеллекта, содержали корреляции, тождественные до третьего десятичного знака40. Подобная точность корреляции почти невозможна с математической точки зрения и потому послужила причиной подозрений. Дальнейший анализ показал, что в этих "исследованиях" не обошлось без мошеннических приемов.
Планирование исследования основано не только на вероятности. Оно основывается на вероятности существования корреляции между одной переменной (фактором, чертой, доходом) и другой. Корреляция означает, что два явления или события возникают одновременно или одно следует за другим. Корреляция не подразумевает причинной зависимости; по словам Марвина Лавенгара, "статистическая связь не обязательно подразумевает причинность. Многие переменные связаны статистической корреляцией, но между ними нет причинной связи"41.
Итак, корреляция не означает, что одно явление или событие обязательно является причиной другого. Конечно, если одно явление действительно вызывает другое, то между этими двумя явлениями существует корреляция, например если при повороте выключателя загорается лампочка, значит, между выключателем и загоранием лампочки существует корреляция. Но если петух кукарекает и солнце восходит каждое утро, то это вовсе не значит, что солнце восходит потому, что петух кукарекнет, хотя между этими двумя явлениями существует статистическая корреляция. Так как исследования, проводимые на основе методологии планирования, устанавливают только корреляцию, причинность может присутствовать или отсутствовать – при этом невозможно определить, не прибегая к другим экспериментам или исследованиям, имела ли на самом деле место причинность.
Кроме того, корреляция, установленная для данного исследования, может быть низкой, но тем не менее статистически значимой. Корреляция выражается в десятичных дробях в диапазоне от 0,00 (отсутствие корреляции) до 1,00 (100-процентная корреляция). Корреляции могут быть очень высокими, например 0,97, или же достаточно низкими, например 0,31, и все же считаться статистически значимыми. Определение статистической значимости почти всегда равносильно доказательству гипотезы. Однако, как пишет д-р Дэвид Гоулд, "проверка значимости, даже в наилучших условиях, способна дать всего-навсего коэффициент надежности... Статистический анализ можно считать лишь предварительной проверкой на предмет того, заслуживает ли данная гипотеза дальнейшего изучения"42.
Смысл сказанного состоит в следующем: чтобы считать гипотезу доказанной, необходимо нечто большее, чем простое определение статистической значимости. Методология планирования, как правило, создает лишь предварительное (и весьма зыбкое) основание считать данную гипотезу верной.
Совершенно очевидно, что для проведения статистического анализа нужны статистические данные. Эти данные обычно бывают представлены в виде оценок, полученных испытуемыми при работе с тестами и шкалами. Таким образом, в нашем примере использования нового метода обучения чтению оценки, полученные испытуемыми из экспериментальной и контрольной групп, и будут играть роль статистических данных, подлежащих анализу. Для сравнения этих двух групп для каждой из них будут вычислены средние оценки.
Существует анекдот о человеке, который не умел плавать и спросил у вылезающего из воды любителя статистики: "Какая здесь глубина?" Тот ответил ему: "Средняя глубина составляет четыре фута". Человек, который не умел плавать, прыгнул в воду там, где глубина достигала семи футов, и чуть было не утонул.
Средние оценки вычисляются, конечно, на основе всех оценок. Если определить средний доход двух человек, а именно Дэвида Рокфеллера (доход которого, надо сказать, является далеко не средним!) и автора этих строк, то он окажется очень высоким, хотя разница между нашими индивидуальными доходами выражается цифрой поистине астрономической. Точно так же обстоит дело и со средними оценками вообще: всего несколько высоких оценок, полученных испытуемыми в экспериментальной группе, могут привести к значимому результату, даже если большинство испытуемых в этой группе имеют низкие оценки. В примере с методом А несколько первоклассников из экспериментальной группы могут закончить курс обучения чтению по этому методу и читать на уровне четвертого класса, в то время как остальные не уйдут дальше первого. Эти несколько высоких оценок могут дать такую среднюю оценку экспериментальной группы, что разница между экспериментальной и контрольной группами окажется значимой. Таким образом, вывод о том, что метод обучения чтению А создает лучшие навыки чтения у большинства первоклассников, – ошибочный вывод, отражающий, в сущности, слабость статистического анализа средних оценок в методологии планирования исследования.
Манипуляции с оценками ради получения значимого результата стали обычным явлением. Работающая над докторской диссертацией исследовательница рассказала автору этих строк, что председатель ученого совета порекомендовал ей "прибавить несколько оценок", если она не получит достаточно значимых результатов для доказательства своей гипотезы. Бывает и наоборот. В исследованиях идентичных близнецов, на которые опирался Дженсен, имели место случаи "селективного исключения данных", то есть оценки некоторых испытуемых не учитывались при окончательных вычислениях, что и позволило сделать вывод о наследуемости интеллекта43.
Многие исследования совершенно неоправданно с научной точки зрения основываются на кривой нормального распределения. На этой кривой различные процентные значения соответствуют низкому, среднему и высокому уровням. Однако те или иные черты интеллекта, личности и поведения, без сомнения, распределены в популяции не по нормальному закону. Так, 98% людей могут быть добрыми, общительными, способными усвоить определенные навыки, и лишь 2% окажутся "агрессивными" или "гиперактивными". Тем не менее, во многих поведенческих исследованиях нормальная кривая считается вполне применимой для таких свойств. Антинаучный вывод о нормальном распределении "интеллекта" помог Дженсену приписать большей части рода человеческого (а именно людям с темным цветом кожи) генетически более низкий, чем у белых, уровень интеллекта.
Методология планирования ставит своей целью показать "значимость" гипотез: если это достигнуто, гипотеза считается доказанной. Ограниченность этого метода состоит в том, что во всех исследованиях, где достигнуты значимые результаты, гипотезы считаются равно доказанными. Исследование, едва дотянувшее до значимого результата (например, за счет единственной высокой оценки), ставится в один ряд с исследованием, в котором каждый из испытуемых экспериментальной группы получил высокую оценку. А ведь для науки обоснованность доказательства гипотезы имеет первостепенное значение.
Получение значимых результатов в исследовании связано также с используемыми тестами и с типом тестируемой выборки. Если эти тесты, подобно шкале "я-концепций" или тесту IQ Векслера, не являются валидными, достижение значимости не имеет смысла, Если используемая выборка составлялась не по одинаковым признакам или не посредством случайного отбора, значимый результат, полученный при таких выборках, не представляет научной ценности. "Тем не менее, даже при достаточно беглом просмотре практически любого номера социологических журналов, – пишет Дэвид Гоулд, – обнаруживаются многочисленные примеры проверок значимости даже тогда, когда выборки не рандомизировались ни на каком из мыслимых уровней"44. Кроме того, как уже было сказано, увеличение размера выборки представляет собой простой, но в высшей степени сомнительный способ достижения значимости результатов.
Достарыңызбен бөлісу: |