Психодиагностика тур 11 Психодиагностика сз-12


Тема 7. Метод тестов: надежность, валидность и стандартизация



бет4/5
Дата22.07.2016
өлшемі0.95 Mb.
#215781
1   2   3   4   5
Тема 7. Метод тестов: надежность, валидность и стандартизация
Как уже отмечалось неоднократно в предыдущих главах, метод тестов является одним из основных в современной психодиагностике, а по уровню популярности в образовательной и профессиональной психодиагностике он прочно удерживает первое место в мировой психодиагностической практике уже фактически в течение столетия. Договоримся понимать под тестами в этом разделе методики, которые состоят из серии заданий с выбором из готовых вариантов ответа. При подсчете баллов по тесту выбранные ответы получают однозначную количественную интерпретацию и суммируются. Суммарный балл сравнивается с количественными тестовыми нормами, и после этого сравнения формулируются стандартные диагностические заключения.

Достоинства метода тестов

Популярность метода тестов объясняется следующими главными его достоинствами (ниже в качестве базы сравнения имеются в виду главным образом

традиционные устные и письменные экзамены):

1) Стандартизация условий и результатов. Тестовые методики относительно независимы от квалификации пользователя (исполнителя), на роль которого можно подготовить даже лаборанта со средним образованием. Это, однако, не означает того, что для подготовки комплексного заключения по батарее тестов не надо привлекать квалифицированного специалиста с полноценным высшим психологическим образованием.

2) Оперативность и экономичность. Типичный тест состоит из серии кратких заданий, на выполнение каждого из которых требуется, как правило, не более полминуты, а весь тест занимает, как правило, не более часа (в школьной практике это один урок); тестированию одновременно подвергается сразу группа испытуемых, таким образом, происходит значительная экономия времени (человеко-часов) на сбор данных.

3) Количественный дифференцированный характер оценки. Дробность шкалы и стандартизованность теста позволяет рассматривать его как «измерительный инструмент», дающий количественную оценку измеряемым свойствам (знаниям, умениям в заданной области). Хороший тест позволяет различать не только три категории учеников-отличников, «середнячков» и «хвостистов», но и хорошо дифференцировать испытуемых на полюсах шкалы — отличать просто способных от очень способных и талантливых, а среди отстающих отличать небезнадежных от «безнадежных» (или совершенно неподготовленных). Кроме того, количественный характер тестовых результатов дает возможность применить в случае тестов хорошо разработанный аппарат психометрики, позволяющий оценить, насколько хорошо работает данный тест на данной выборке испытуемых в данных условиях.

4) Оптимальная трудность. Профессионально сделанный тест состоит из заданий оптимальной трудности. При этом средний испытуемый набирает примерно 50 процентов из максимально возможного количества баллов. Это достигается за счет предварительных испытаний — психометрического экспериимента, или пилотажа. Если в ходе пилотажа становится известным, что с заданием справляется примерно половина из обследованного контингента, то такое задание признается удачным и его оставляют в тесте.

5) Надежность. Это, может быть, самое главное достоинство тестов. «Лотерейный» характер современных экзаменов с вытягиванием «счастливых» или «несчастливых» билетиков давно уже стал притчей во языцах. Лотерейность для экзаменующегося здесь оборачивается низкой надежностью для экзаменатора — ответ на один фрагмент учебной программы, как правило, не показателен для уровня усвоения всего материала. В отличие от этого, любой грамотно построенный тест охватывает основные разделы учебной программы (тестируемой области знаний или проявлений какого-то умения или способности). В результате возможность для «хвостистов» выбиться в отличники, а для отличника вдруг «провалиться» резко сокращается.

Назовем также ряд достоинств, которые в логическом смысле являются следствиями, производными от перечисленных выше, но заслуживают самостоятельного упоминания.

6) Важнейшим социальным следствием перечисленных выше достоинств метода тестов является Справедливость. Ее следует понимать как защищенность от предвзятости экзаменатора. Хороший тест ставит всех испытуемых в равные условия. Наиболее сильно субъективизм экзаменаторов проявляется, как известно, не в трактовке уровня решенности задачи (не так просто назвать черное белым — решенную задачу нерешенной), а в тенденциозном подборе заданий — своим полегче, чужим — труднее. Во введении к настоящему пособию уже говорилось, что именно тесты обеспечивают важнейшую функцию школы, как социального фильтра, — функцию «социально-профессиональной селекции». То, насколько справедливой оказывается подобная селекция, имеет гигантское значение для развития общества. Поэтому так важно всем, кто имеет доступ к тестам и их результатам, учиться культуре грамотного и гуманного применения тестов. Ибо только добросовестное и квалифицированное отношение пользователей к тестам превращает их в инструмент, повышающий, а не понижающий уровень справедливости в обществе.

7) Возможность компьютеризации. В данном случае это не просто дополнительное удобство, сокращающее живой груд квалифицированных исполнителей при массовом обследовании. В результате компьютеризации повышаются все параметры тестирования (например, при адаптивном компьютерном тестировании резко сокращается время тестирования). Специально подчеркнем, что компьютеризация — это мощный инструмент обеспечения информационной безопасности (достоверности диагностики). Компьютерная организация тестирования, предполагающая создание мощных информационных «банков тестовых заданий», позволяет технически предотвратить злоупотребления со стороны недобросовестных экзаменаторов. Выбор заданий, предлагаемых конкретному испытуемому, может производить из такого банка сама компьютерная программа прямо в ходе тестирования, и предъявление данному испытуемому определенного задания в этом случае является таким же сюрпризом для экзаменатора, как и для испытуемого.

8) Психологическая адекватность. Это важнейшее психологическое следствие оптимальной сложности. Наличие в тесте (по сравнению с традиционными экзаменационными вариантами) большого количества кратких заданий средней трудности дает многим испытуемым (особенно тревожным, не уверенным в себе) шанс «зацепиться», поверить в себя, активизировать психологически оптимальную установку «на преодоление». Ведь когда такой испытуемый остается лицом к лицу перед одной-двумя очень сложными и большими задачами и не видит, как можно с ними справиться вообще, то он падает духом и не раскрывает всех своих возможностей. А если заданий много, и часть из них явно начинает «поддаваться» (испытуемый уверен, что он с ними справится), человек в процессе тестирования ободряется и начинает «бороться» за максимальный результат. Уже упомянутое нами свойство оптимальной сложности важно для теста тем, что оно не только обеспечивает измерительную (различающую) силу тесту, но и обеспечивает оптимальный психологический настрой испытуемых. Человек не является пассивным объектом измерений при тестировании (подобно гире при взвешивании) — он всегда остро эмоционально реагирует на тест. Тестовая ситуация оптимальной сложности является оптимальным возбудителем — люди испытывают нормальный уровень стресса (напряжения), необходимый для того, чтобы показать наивысший результат. Недостаток стресса (в случае легкого теста), а тем более избыток (в случае трудного) искажают результаты измерения. Этого, как правило, совершенно не понимают организаторы наших конкурсных экзаменов, пытающиеся в случае высокого конкурса дать абитуриентам задачки посложнее («на засыпку») — создается избыточный стресс, который не дает возможности проявить себя людям, подготовленным хорошо, но

обладающим пониженной стрессоустойчивостью.

Во многих странах внедрение метода тестов (равно как и сопротивление этому внедрению) тесно связано с социально-политическими обстоятельствами. Внедрение хорошо технически оснащенных тестовых служб в образовании — важнейший инструмент в борьбе с коррупцией, поражающей правящую элиту (номенклатуру) во многих странах. На Западе тестовые службы работают независимо от «выпускающих» (школы) и «принимающих» (вузы) организаций и снабжают абитуриента независимым сертификатом о результатах тестирования, с которым он может отправляться в любое учреждение. Эта независимость службы тестирования от выпускающих и принимающих организаций является дополнительным фактором демократизации процесса селекции профессиональных кадров в обществе, дающая талантливому и просто работоспособному человеку лишний шанс проявить себя.

Однако все перечисленное выше не означает, что метод тестов не обладает некоторыми весьма серьезными недостатками, не позволяющими свести всю диагностику способностей и знаний исключительно к тестированию.



Недостатки тестирования

Как всегда, определенные недостатки метода тестов являются продолжением его достоинств:

1) Опасность «слепых» (автоматических) ошибок. Слепая вера низкоквалифицированных исполнителей, что тест должен сработать правильно автоматически, порождает иногда тяжелые ошибки и казусы: испытуемый не понял инструкцию и стал отвечать совсем не так, как требует стандартная инструкция, испытуемый по каким-то причинам применил искажающую тактику, возник «сдвиг» в приложении трафаретки-ключа к бланку ответов (при ручном, некомпьютерном подсчете баллов) и т. п. Мораль — пользователь не должен подходить к тесту с «магической установкой», будто этот волшебный «черный ящик» должен всегда работать исправно без всякого контроля со стороны человека.

2) Опасность профанации. Это эффект деятельности «профанов» в буквальном смысле слова. Не секрет, что внешняя легкость проведения тестов прельщает людей, не пригодных ни к какому квалифицированному труду. Оснастившись тестами, им самим непонятного качества, но с громкими рекламными названиями, профаны от тестирования агрессивно предлагают свои услуги всем и вся. В результате все проблемы предполагается решать с помощью 2—3 тестов — «на все случаи жизни». К количественному тестовому баллу приклеивается новый ярлык — заключение, создающее видимость соответствия диагностической задаче. Ходовой пример — повальное использование клинического теста MMPI для отбора кадров в нашей стране. В этом случае высокий балл по восьмой шкале «Шизофрения» интерпретируется как «оригинальность мышления», по четвертой шкале «Психопатия» — как «импульсивность» и т. п. Мысль о том, что нормальный здоровый испытуемый настораживается при виде многих вопросов MMPI, в которых откровенно называются психиатрические симптомы («Я часто слышу голоса») и выдают чисто «защитный» профиль, профанов не тревожит. [Примечание. Модификация MMPI, разработанная американцами для здоровых людей, Калифорнийский перечень CPI, у нас до сих пор не прошел полной психометрической адаптации и вообще используется редко]. Еще раз подчеркнем, что недобросовестная профанация и элементарное невежество идут в области тестирования рука об руку.

3) «Потеря индивидуального подхода, «стрессогенность». Тест — самая общая «гребенка», под которую подгоняют всех людей. Возможность упустить уникальную индивидуальность нестандартного человека (тем более ребенка), к сожалению, довольно вероятна. Это чувствуют сами испытуемые, и это их нервирует — особенно в ситуации аттестационного тестирования. У людей с пониженной стрессоустойчивостью возникает даже определенное нарушение саморегуляции — они начинают волноваться и ошибаться в элементарных для себя вопросах (просто из-за «мандража»). Вовремя заметить такую реакцию на тест — задача, которая под силу квалифицированному и добросовестному исполнителю.

4) Потеря индивидуального подхода, «репродукивность». Тесты знаний апеллируют прежде всего к стандартному применению готовых знаний. Отсутствие возможности раскрыть свою индивидуальность при наличии стандартных, заданных ответов — ничем, невосполнимый недостаток метода тестов. С точки зрения выявления творческого потенциала большинство тестов весьма ограничены именно тем, что они не апеллируют к творческой, конструктивной деятельности. Во всяком случае, отдельные стандартизированные творческие тесты имеют дело с весьма абстрактным материалом, а тесты достижений (знаний), адаптированные на жизненно важном материале (профессионально релевантном), как правило, выполнены в форме стандартного набора заданий с заданным ответом.

5) Отсутствие доверительной обстановки. Бездушный и формализованный характер самой процедуры тестирования, конечно, оборачивается тем, что испытуемый лишается ощущения того, что психолог заинтересован в нем лично, в том, чтобы помочь в его проблемах и трудностях. Диалогические методы

(беседа, игра и т. п.) в этом плане имеют несомненные преимущества: непосредственно общаясь с испытуемым квалифицированный психолог может установить доверительный контакт, проявить персональное участие, создать атмосферу, снимающую напряжение и защиту.

6) Потеря индивидуального подхода, неадекватная сложность. Иногда неквалифицированные «тестологи» обрушивают на ребенка тесты, слишком трудные, сложные для него по возрасту. У него еще не сложились необходимые понятия и понятийные навыки, чтобы адекватно осмыслить как общую инструкцию к тесту, так и смысл отдельных вопросов. Много примеров драматических казусах резкой недооценки умственного развития детей при применении вербальных тестов. Но многие «невербальные» тесты также требуют развития речевого мышления — хотя бы для осмысления того, что говорит взрослый в своей инструкции. Альтернатива «взрослому» тестированию в детской психологии — игровой подход к тестированию, когда тест включается в контекст игры и ребенок выполняет его как бы играя.

Таким образом, тесты нельзя делать единственным исчерпывающим методом любой диагностики (и образовательно-профессиональной и личностной) — они требуют параллельного использования свободных письменных работ (в личностной диагностике место сочинений занимают проективные тесты со свободным ответом), а также устного собеседования (интервью). То есть место тестов — дополнять указанные выше более традиционные методы. В этом качестве тесты незаменимы, так как не имеют многих недостатков, свойственных традиционным методам.

Спокойное рациональное осознание достоинств и недостатков метода тестирования освобождает всех (исполнителей, заказчиков, испытуемых) как от чрезмерных упований на метод тестов, так и от пренебрежения к нему.

Лучшая гарантия от профанов и профанации — серьезный и квалифицированный интерес к тому, какую экспериментально-научную работу проделали разработчики теста, как полно эта работа и ее результаты отражены в сопутствующей документации. Это прежде всего вопросы надежности, выносливости и репрезентативности.



Надежность теста

НАДЕЖНОСТЬ — одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность — это помехоустойчивость теста, независимость его результатов от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

— разнообразие внешних материальных условий тестирования, меняющихся от одного испытуемого к другому (время суток, освещенность, температура в помещении, наличие посторонних звуков, отвлекающих внимание и т. п.),

— динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (время так называемой «врабатываемости» — выхода на стабильные показатели темпа и точности действий после начала тестирования, скорость утомления и т. п.),

— информационно-социальные обстоятельства (различная динамика в установлении контакта с психологом или лаборантом, проводящим тестирование; возможное наличие других людей в помещении; наличие предыдущего опыта знакомства с данным тестом; наличие какого-то знания и отношения к тестам вообще и т. п.).

Разнообразие и изменчивость всех этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренного тестового балла от истинного тестового балла (который можно было бы в принципе получать в идеальных условиях). Средняя относительная величина этого отклонения определяется как «стандартная ошибка измерения» (Se). Величина ошибки измерения указывает на уровень неточности или ненадежности тестовой шкалы (специально подчеркнем, что в психометрической теории надежность и точность оказываются синонимами).

ошибка измерения (Se) и надежность измерения (R), согласно общепринятой психометрической теории, связаны следующей формулой:

(1) R =1 - Se2/Sx2,

где S — дисперсия тестовых показателей X.

Формула (1) является чисто теоретической, и на ее основе нельзя подсчитать надежность теста, так как величина Se оказывается также неизвестной величиной- Поэтому на практике применяют корреляционные методы. Самый известный из них — метод перетестирования (тест-ретест) или метод измерения «ретестовой надежности». На одной и той же выборке испытуемых (не менее 30 человек, участвующих в пилотажном психометрическом экспериментальном исследовании) проводят первое тестирование X, а затем повторное тестирование Y. Интервал, как правило, — две недели, что гарантирует забывание вопросов теста.

Затем для двух рядов значений X и Y подсчитывается, например, линейный коэффициент корреляции (возможный и нередко более корректный вари-

ант — подсчитывать ранговый коэффициент корреляции):



где Sx, S — стандартные отклонения X и Y,

Cov(X,Y) — ковариация двух переменных X и Y.

В этой книге мы не ставим целью научить студентов корреляционным методам и пытаемся изложить лишь принципиальную суть дела. Интересующиеся найдут все необходимые формулы и вычислительные примеры в любом учебнике по статистике, а также в специализированных изданиях по психодиагностике и психометрике.

Что важно для сути теории надежности тестов, так это возможность определить ошибку измерения после того, как подсчитана корреляция «тест-ретест» по формуле (3), полученной путем простого преобразования формулы (1):

(3) Se = S *VI — R

Таким образом, если стандартное отклонение в тесте составило 10 очков (среднее отклонение, которое в среднем допускают испытуемые от среднего балла для выборки), а корреляция «тест-ретест» оказалась равной лишь 0,5, то ошибка измерения оказывается очень большой:

Se = 10*VI - 0,5 -7.1.

То есть оказывается, что ошибка измерения перекрывает большую часть разброса тестовых показателей, так как истинный балл по тесту может отклоняться от измеренного балла на целых 7 очков! И

если испытуемый набрал на 6 очков больше, чем «средний» испытуемый, мы не можем с достаточной уверенностью (статистической достоверностью) говорить о том, что он значимо превзошел среднего испытуемого, так как это отклонение оказывается в пределах стандартной ошибки измерения.

Таким образом, низкая корреляция результатов теста между первым и повторным тестированием говорит о том, что случайные факторы существенно искажают результаты теста. Это значит, что тест не обладает необходимой помехоустойчивостью, и его нельзя использовать как измерительный инструмент.

Показатель надежности R, который принято считать достаточно высоким, равен или превышает 0,95. Хотя в личностных тестах часто пользуются значительно менее надежными тестами с показателями 0,8 — 0,9.

Метод измерения «ретестовой надежности» пригоден только для психических свойств, стабильных во времени. Надежность тестов на психические состояния и динамичные установки личности нельзя проверить таким образом. В этом случае применяют различные методы «расщепления» теста на отдельные пункты.

Валидность теста

Соответствие теста измеряемому психическому свойству называется валидностью теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:

валидность не может превышать надежность теста.

Но в отличие от надежности помимо случайных факторов на валидность теста влияют систематические факторы* Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен. У Например, мы хотим измерять «потенциал обучаемости» (важнейший компонент общих интеллектуальных способностей человека). Но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством — «стрессоустойчивостью»: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны буквально десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый «критерий». КРИТЕРИЙ ВАЛИДНОСТИ — это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве — с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии — показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель — это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

Очень часто в качестве критерия валидности используется экспертная оценка. Например, мы хотим убедиться, что короткий тест на измерение уровня дисциплинированности валиден. Для этого опрашиваем учителей об уровне дисциплинированности хорошо известных им учеников. И после этого сравниваем (коррелируем) результаты теста и экспертный рейтинг учеников по дисциплинированности.

Остановимся здесь чуть подробнее на этом последнем примере. Здесь мы имеем один из самих простых и популярных методов эмпирического (статистического) измерения валидности. Это метод «известных групп». К участию в психометрическом эксперименте по проверке валидности теста приглашаются испытуемые, про которых известно, к какой группе по критерию они относятся. В случае с тестом дисциплинированности подбираются ученики, заведомо дисциплинированные, по данным экспертной оценки учителей («высокая» группа по критерию), и заведомо недисциплинированные («низкая» группа по критерию). Ученики со средними показателями по критерию в тестировании не участвуют. После проведения теста мы рассчитываем, например, простейшую четырехклеточную корреляцию между тестом и критерием. Для этого заполняется следующая четырехклеточная таблица:




ВЫС. КРИТ.

НИЗ. КРИТ

ВЫС.ТЕСТ

а

b

НИЗ.ТЕСТ

с

d

Элемент а в этой табличке — это число испытуемых, попавших в «высокую» группу по тесту и по критерию, элемент b — число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию и т. д.

Очевидно, что при полной валидности теста элементы b и с таблички должны быть равны нулю. То есть тест не должен давать ошибок — говорить о том, что ученик низкодисциплинированный, когда учителя говорят о том, что ученик высоко дисциплинированный (случай с).

Меру совпадения (корреляции) между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

При численности протестированной группы в 30 человек (это минимальная выборка для проверки валидности) статистически значимую связь теста с критерием мы можем констатировать, когда Phi>—0,36. Хотя это, конечно, очень невысокая валидность, но все же тест в этом случае дает значимо лучшие результаты, чем случайное гадание. То есть если в вашем учебном заведении есть конкурс и вы хотите отобрать не только одаренных, но и дисциплинированных учащихся, вы можете использовать тест, валидность которого вы проверили, и она оказалась значимой.

Но... Метод «известных групп» обладает серьезным недостатком. Он не всегда позволяет использовать тест для прогноза. Дело в том, что при формировании «известных групп» оценивается поведение, которое происходило в прошлом, а мы хотим сделать тест дня прогноза поведения, которое будет происходить в будущем. Многие тесты, используемые в образовательной психодиагностике, обладают указанным недостатком. Они прошли в лучшем случае проверку по методике «известных групп» и не обладают так называемой ПРОГНОСТИЧЕСКОЙ ВАЛИДНОСТЬЮ (или по крайней мере эта валидность строго экспериментально не доказана). Конечно, на местном уровне задачу обеспечения прогностической валидности не решить. Это под силу только крупным научно-методическим центрам. Ведь к психометрическому исследованию по проверке прогностической валидности надо привлекать примерно на порядок больше испытуемых — не 30, а минимум 300. Ведь мы просто не знаем, кто из этих 300 попадет в будущем в крайние группы.

Например, мы хотим использовать тест для прогноза готовности школьников к обучению в вузе. Это типичная прогностическая психодиагностическая задача. Кто-то должен взяться за нелегкую многолетнюю программу проверки прогностического потенциала этого теста. Нужно протестировать 300— 500 школьников, а затем подождать, кто из них поступит в вуз и будет успешно там учиться. После двух-трехлетнего интервала можно сформировать критериальные группы и подсчитать корреляцию с прежними тестовыми показателями этих бывших школьников. Только после реализации такой схемы психометрического эксперимента можно утверждать, что тест прошел проверку на прогностическую валидность. Без этого мы исходим просто из доверия к научной интуиции разработчика теста и не имеем независимых доказательств того, что тест можно использовать для прогноза.

Различение обычной дешевой схемы валидизации теста (по «известным группам») и дорогой прогностической схемы валидизации теста — важнейший элемент психодиагностической грамотности не только для психологов, но и для педагогов, как, впрочем, и для любых заказчиков психодиагностической информации.

Когда заказчик твердо знает, каких доказательств эффективности предлагаемого теста можно потребовать от тестолога, он будет надежно застрахован от профанации.



Стандартизация тестов

Что, несомненно, должен знать и уметь делать каждый грамотный пользователь теста — это понимать, что такое тестовые нормы и как ими пользоваться.

Первоначальный суммарный балл, подсчитанный с помощью ключа, не является показателем, который можно диагностически интерпретировать. Его называют в тестологии «сырым тестовым баллом». Применение тестовых норм в профессионально организованной психодиагностике основывается на переводе тестовых баллов из «сырой» шкалы в «стандартную». Эта процедура называется «стандартизация тестового балла».

Пусть мы провели тест из 20 заданий и испытуемый дал 12 правильных ответов. Можно ли при этом сказать, что способность у испытуемого выражена лучше или хуже, чем в среднем? Нет. Для такого вывода нужно сравнить балл 12 со средним баллом по представительной выборке испытуемых.

Выборка, на которой определяются статистические тестовые нормы, называется ВЫБОРКОЙ СТАНДАРТИЗАЦИИ. Ее численность, как правило, не меньше 200 человек. Столько должны принять участие в психометрическом эксперименте по определению тестовых норм — в эксперименте по стандартизации теста.

Если после стандартизации теста выясняется, к примеру, что среднее арифметическое по сырой шкале теста равно 14, то оказывается балл 12 — это не лучше, а хуже среднего (хотя испытуемый и справился больше, чем с половиной заданий). Просто в данном случае тест содержит слишком простые задания, несколько отклоняется по этому параметру от оптимальной трудности.

Простейшая ЛИНЕЙНАЯ СТАНДАРТИЗАЦИЯ тестового балла производится по формуле

где Z — стандартный балл на так называемой стандартной шкале Z (с центром 0 и отклонением 1), X — сырой балл по тесту, .— средний балл по выборке стандартизации, S — стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ производится по формуле

149

Основы психодиагностики



IQ= Z..15 + 100.

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуется в так называемую шкалу «стенов» (от английского «standard ten» — стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z...2+ 5.5,

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

(6) Y =SsZ + М,

где Y — стандартный балл по произвольной шкале с центром М и отклонением S$.



Для серьезных профессиональных тестов вместо описанной здесь простейшей линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной, процедуры разработчики снабжают пользователей теста так называемой «КОНВЕРСИОННОЙ ТАБЛИЦЕЙ» для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

Ниже приведен пример того, как может выглядеть конверсионная таблица для некоторого теста арифметических вычислений из 30 заданий. Простейшая процедура подсчета баллов (за правильный ответ — 1 очко, за ошибку — 0) дает нам сырую шкалу от 0 до 30:

150

Психодиагностика как научная технология



Таблица 1

Пример фрагмента конверсионной таблицы для перевода сырых баллов в стены



Сырой

балл


0-6

7-8

8-9

10-13

14-16

17-19

20-22

23-24

25

26-30

Стены

1

2

3

4

5

6

7

8

9

10

Как пользоваться таблицей? Если испытуемый показал 5 сырых очков (решил только 5 заданий), то ему ставится минимальный стандартный балл 1. Если испытуемый решил 25 заданий, то — балл 9.

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило здесь таково: если стандартный балл У превышает единицу «верхней» (или «высокой») группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе (или московской, или иркутской — в зависимости от того, на какой выборке стандартизации получены нормы). Если же стандартный балл Y ниже границы «нижней» («низкой») группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства. Если стандартный тестовый балл Y заключен в пределах центрального интервала (M-Ss, M+Ss), то про испытуемого говорят, что у него измеренное свойство выражено в средней степени — как у большинства

людей.

На шкале стенов граница «верхней» группы равна 7.5, а «нижней» — 3.5, то есть при получении 8 стенов и больше испытуемый зачисляется в «верхнюю» группу; а при получении 3 стенов и меньше —в «нижнюю».



Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, «гибкость — ригидность», то для «высокой» группы формулируется заключение как для «гибких» людей, а для «низкой» группы — как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованнои по данному тестовому параметру.

Любые тестовые заключения при использовании статистических тестовых норм являются относительными. Они зависят от той выборки, на которой производилась стандартизация теста. То, насколько выборка стандартизации позволяет применять тест на широкой популяции, называется РЕПРЕЗЕНТАТИВНОСТЬЮ тестовых норм. [Примечание. Под популяцией обычно понимают категорию испытуемых определенной социальной, профессиональной или половозрастной принадлежности]. Репрезентативность— третье важнейшее психометрическое свойство теста. Понимание смысла этого требования к тесту помогает правильно учитывать ограничения в сфере применения теста.

Например, если тест проходил стандартизацию на студентах, то перед его применением на школьниках следует вначале произвести РЕСТАНДАРТИЗАЦИЮ, то есть снова собрать тестовые нормы на представительной выборке, сформированной именно из школьников. В противном случае диагностические выводы будут производиться по неадекватным тестовым нормам и будут неточны и неверны.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм (более подробно об этом см. уже указанные специализированные издания по психометрике).

Введение понятия репрезентативности позволяет нам дать более строгое определение того, что такое стандартизация теста. О СТАНДАРТИЗАЦИИ ТЕСТА в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической структурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются КРИТЕРИАЛЬНЫЕ НОРМЫ. Они особенно важны для сферы образования. Действительно, что дает нам знание о том, что Петров выполнил тест лучше среднего испытуемого, если средний испытуемый тоже не справился с большинством заданий и мы прогнозируем, что подавляющее большинство испытуемых без специального дополнительного обучения не смогут показать требуемого уровня эффективности в будущей деятельности.

При построении так называемого « теста по критерию» шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности). Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной «надежности оператора» (в данном случае «надежность» — измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем «надежности». Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Достоверность теста

Особой разновидностью валидности является ДОСТОВЕРНОСТЬ, которая не всегда выделяется в учебниках по психодиагностике, хотя требует специальных усилий и процедур по обеспечению. Речь идет о сознательных или бессознательных искажениях, которые вносит в тестовые результаты сам испытуемый, руководствуясь в ходе теста особой мотивацией, отличающейся от той, которая присуща ему в реальном поведении. Способность теста защищать информацию от МОТИВАЦИОННЫХ ИСКАЖЕНИЙ и есть достоверность теста. Особенно. остро проблема достоверности стоит в случае тест-опросников, которые допускают больше свободы в выборе испытуемым любого варианта ответа.

Типичный прием обеспечения достоверности — наличие в тест-опросниках ШКАЛ ЛЖИ. Эти шкалы основываются главным образом на феномене СОЦИАЛЬНОЙ ЖЕЛАТЕЛЬНОСТИ — стремлении испытуемых давать в ходе тестирования социально одобряемую информацию. Если испытуемый набрал по шкале лжи балл выше критического, то его протокол объявляется недостоверным и ему предлагается либо выполнить данный тест еще раз более откровенно, либо выполнить другой тест. Многие более специфичные «ловушки», направленные на измерение достоверности, часто входят как компонент в структуру конкретного теста, а иногда даже не подлежат разглашению как элемент «ноу-хау» (информационного изобретения) и профессиональной тайны, разделяемой разработчиками только с лицензированными пользователями методики, подписавшими особое лицензионное соглашение при приобретении теста.

Достоверность тестирования тесно связана со степенью доверительности общения, которую смог психолог установить с данным испытуемым. Здесь полезно различать две диагностические ситуации: консультативную (СИТУАЦИЯ КЛИЕНТА) и аттестационную (СИТУАЦИЯ ЭКСПЕРТИЗЫ). В первом случае испытуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам тестирования (как, например, в профориентационной консультации). Во втором случае тестирование проводится по инициативе администрации, психолога, родителей, т. е. других лиц, и эти другие больше заинтересованы в результатах, чем сам испытуемый.

Понятно, что в аттестационной ситуации вопрос о достоверности особенно актуален. И опросники, не снабженные шкалами лжи, использовать в таких ситуациях бесполезно. Наоборот, в ситуации клиента могут быть использованы такие методики, на которые испытуемый заведомо будет отвечать некорректно в ситуации экспертизы.

Вопросы достоверности и стандартизации тесно связаны между собой. Очень часто даже объективные тесты достижений, если они проходили стандартизацию на добровольцах (в ситуации консультации), должны быть рестандартизированы для того, чтобы их использовали в аттестационной ситуации.

В заключение данной главы подчеркнем, что измерение психометрических характеристик теста, конечно, является прежде всего обязанностью разработчиков тестов. Но квалифицированный специалист с полным курсом университетского образования должен по своей подготовке уметь самостоятельно провести простейший психометрический эксперимент и пересчитать тестовые нормы, а также психометрические индексы надежности и валидности теста на своей собственной выборке (в своем регионе, обладающем определенной национально-культурной и социальной спецификой). Без этой проверки никто не может гарантировать, что тест действительно работает в данных условиях.

На сегодня подобная психометрическая работа с тестами облегчается, так как от массы рутинных вычислений специалиста освобождает компьютер.



2.4. МЕТОДИКИ ШКАЛИРОВАНИЯ И САМООЦЕНКИ

Очень широко используются в школьной практике методики шкалирования. Наиболее простые из них привлекают школьных психологов именно простотой проведения, прозрачностью интерпретации, возможностью как бы заглянуть во внутренний мир ребенка.

В отличие от экспертных оценок, которые дают преподаватели ребенку, мы говорим в данном случае о том, что сам ребенок оценивает либо какие-то объекты внешнего мира, либо людей (преподавателей, родителей, друзей), либо события своей жизни, либо себя самого. Ему дается, как правило, бланк с определенными шкалами, полюса которых обозначены какими-то краткими или развернутыми названиями. Шкалы могут быть даны в словесной, числовой или графической форме. От формы суть не меняется: методика все равно остается методикой шкалирования. Но от формы шкал иногда существенно зависит доступность методики для ребенка в его возрасте, а также достоверность.

Однако внешняя простота наиболее простых из методик шкалирования обманчива. И дело не в том, что многие из этих методик требуют для своего эффективного применения сложной статистической обработки с использованием современных компьютерных методов. А в том, что многим пользователям низкой квалификации самим недостаточно хорошо понятно, как именно понимает эту методику ребенок, что именно оценивает и оценивает ли он вообще что-либо, то есть обладают или нет полученные данные ожидаемой валидностью.

Вся трудность в том, что методики шкалирования требуют от ребенка высокого уровня развития речи, словарного запаса, ассоциативного и нередко рефлексивного мышления (последнее особенно необходимо для методик самооценки, требуюших умения взглянуть на себя со стороны). Если уровень развития этих психических свойств не соответствует требованиям методики, то с ее помощью нельзя получить валидные и достоверные результаты.

Рассмотрим для начала такую, пожалуй, самую популярную методику, как методика самооценки Дембо—Рубинштейн. Эта методика широко используется как самостоятельно, так и в контексте клинической беседы в детской психологии и психиатрической клинике. Испытуемому предлагаются одна за другой несколько графических шкал, ориентированных вертикально (это принципиально, так как «верх» и «низ» у каждого человека семантически маркированы — ассоциативно наполнены определенным смыслом). Испытуемому сообщают инструкцию (здесь дается ее укороченный вариант): «Все люди являются либо счастливыми, либо несчастными, либо немного счастливыми и немного несчастными одновременно. Представь себе на верхнем краю этой линии самого счастливого человека, а на нижнем краю — самого несчастного. Посередине — среднего человека по количеству счастья. Куда бы ты поместил себя на этой линии?» Далее ребенку предлагается оценить себя по уровню «здоровья», по «уму», по «доброте» и т. п.

А теперь посмотрим, какие понятия должны быть уже сформированы у ребенка для успешного выполнения этой методики? Это так или иначе понятие «уровня» (степени, количества, выраженности). Как бы вы ни назвали это понятие, какое бы простое обозначение вы ни использовали, искусно упростив инструкцию и включив ее в какой-то игровой контекст, само понятие должно уже сложиться в голове у ребенка. Следующие понятия — «максимум» и «минимум» (самый, крайний и т. п.). Далее — понятие «все люди» (логический квантор всеобщности), понятие «середина» (средний, промежуточный уровень), понятия «выше/ниже» (больше/ меньше), понятие «себя» (апелляция к рефлексивному «Я») и, наконец, понятия «счастье», «ум», и аналогичные, выступающие критерием оценки, задающие смысл шкале. Как видим, далеко не всем дошкольникам и даже младшим школьникам должна быть легко доступна такая методика. Если взрослые не развивали у ребенка ассоциативно-рефлексивное мышление, то, впервые столкнувшись с подобной методикой, ребенок оказывается перед задачей впервые сформировать у себя довольно сложное умение, включающее комплексную координацию целой системы понятий. Таким образом, несмотря на то, что ГРАФИЧЕСКОЕ ШКАЛИРОВАНИЕ, которое требуется произвести в методике Дембо—Рубинштейн, само по себе доступнее, чем вербальное или числовое шкалирование, само понимание инструкции — это проблема.

В многочисленных экспериментах, остроумно организованных знаменитым психологом Жаном Пиаже, было показано, что в эксперименте над ребенком настолько довлеет авторитет взрослого, что ребенок часто не думает над существом поставленной перед ним задачи, а стремится как бы угадать, чего именно от него ждет и хочет получить взрослый. Так и в методиках шкалирования от ребенка — требуется не только определенная интеллектуальная зрелость (по Пиаже она достигается только к 10—12 годам), но и определенная личностная независимость (ориентировка на предмет деятельности, а не на участников событий).

Сама по себе самооценка ребенка — явление неустойчивое, ситуационное. Она еще не сложилась даже в подростковом возрасте. Нередко бывает так, что в социальном поле (зрительном окружении) хорошо знакомых людей ребенок чувствует себя уверенным, умным, сильным и т. п., а среди незнакомых теряется. Отсюда ясно, что результаты методики шкалирования в работе с детьми очень сильно зависят от того, какое впечатление произвел взрослый-экспериментатор на ребенка, какой контакт он мог с ним установить. '

Теперь, сделав необходимые оговорки, повышающие уровень критического и серьезного отношения к методикам шкалирования, расскажем тем не менее, что они могут дать при квалифицированном использовании.

Семантический дифференциал

Одна из наиболее широко распространенных методик такого типа — так называемый «СЕМАНТИЧЕСКИЙ ДР1ФФЕРЕНЦИАЛ» (Ч. Осгуд, 1952). Это по сути не одна, а целая семья методик, целая технология. В работе с детьми она может использоваться как для изучения уровня сформированности и цельности представлений ребенка о мире (когнитивная диагностика), так и в качестве проективной методики — для исследования личностных установок и эмоциональных отношений ребенка к определенному кругу объектов.

Обычный «семантический дифференциал» (СД) — это несколько семибалльных шкал, нанесенных горизонтально на один бланк (ответный лист). Семь градаций обозначены, как правило, словами, так же, как и полюса шкалы. Приведем пример бланка:

объект «СОЛНЦЕ»

АКТИВНЫЙ сильно средне слабо никак слабо средне сильно ПАССИВНЫЙ

ЗЛОЙ сильно средне слабо никак слабо средне сильно ДОБРЫЙ

МЯГКИЙ сильно средне слабо никак слабо средне сильно ЖЕСТКИЙ

ЛЕГКИЙ сильно средне слабо никак слабо средне сильно ТЯЖЕЛЫЙ

ХОЛОДНЫЙ сильно средне слабо никак слабо сродно сильно ТЕПЛЫЙ

Задача испытуемого — зафиксировать свою оценку в виде отнесения к определенному полюсу шкалы с определенной градацией. Выбранную градацию надо либо подчеркнуть на бланке, либо обвести кружком. Таким образом, в каждой строке бланка должна быть проставлена отметка, фиксирующая ответ испытуемого.

Как видим, по сравнению с методикой Дембо—Рубинштейн «семантический дифференциал» совершеннее тем, что защищен от так называемой «позиционной тактики». Здесь позитивно окрашенные характеристики размещаются не на одном и том же полюсе каждой шкалы (наверху), а на разных — то слева, то справа.

В результате заполнения бланка СД на ответном листе возникает субъективный СЕМАНТИЧЕСКИЙ ПРОФИЛЬ прошкалированного объекта. Его легче увидеть, если соединить единой ломаной линией все пометки.

При обработке результатов СД возможны два подхода: либо анализировать только профили, либо строить так называемое «семантическое пространство».

Поясним, как можно действовать в первом случае. Допустим, мы проводим СД в

целях профориентационной консультации и просим школьника старших классов прошкалировать названия различных профессий, которые, как выясняется из беседы с ним, оказываются для него потенциально привлекательными. Но какая же самая привлекательная из них? Для ответа на этот вопрос школьника просят прошкалировать, кроме названия конкретных профессий, также и особый идеальный объект — «самую лучшую профессию для меня». После этого производится сравнение всех профилей реальных профессий и профиля идеальной профессии (опустим здесь формулу подсчета меры сходств, главное здесь —«понимание общего смысла метода). И та реальная профессия, профиль которой обнаруживает больше сходства с «идеальной», объявляется в результате наилучшим субъективным выбором.

[Примечание. Понятно, что для разных испытуемых такой выбор может быть разным не только в силу несовпадающих представлений о реальных профессиях, но и в силу различия в профиле идеальной профессии: одни больше стремятся к «сильным» (или как на современном молодежном слэнге — «крутым») занятиям, другие — к сложным и интересным, третьи — к спокойным и добрым и т. п.].

Для построения «СЕМАНТИЧЕСКОГО ПРОСТРАНСТВА» производится объединение шкальных оценок по родственным шкалам, входящим в одну и ту же координату (фактор) семантического пространства. Как показали многочисленные факторноаналитические исследования зарубежных и отечественных психологов (Е. А. Артемьева, 1980, В. Ф. Петренко, 1979, 1988, А. М. Эткинд, 1979, А. Г. Шмелев, 1983 и другие), большинство оценочных шкал объединяются в три сводные оценочные шкалы: «хороший — плохой», «сильный — слабый», «активный — пассивный». Например, оценки по шкале «мягкий — жесткий» оказываются психологически эквивалентными оценкам по шкале «хороший — плохой», а оценки по шкале «тяжелый — легкий» фактически близки к оценкам по шкале «сильный — слабый». В результате такого пересчета (очень похожего на подсчет суммарного балла по тесту, но только в данном случае не для испытуемого, а для объекта) каждый объект получает значение по трем главным семантическим факторам и может быть отображен геометрически в виде точки в трехмерном пространстве Оценка-Сила-Активность. Сходство профилей есть близость определенных точек в семантическом пространстве, ее буквально можно увидеть (визуализировать), как показано на рис. 4:



Рис. 4


Двумерное семантическое пространство

в результате шкалирования профессий

по «семантическому дифференциалу»

На приведенном примере самыми близкими к идеальной из всех рассматриваемых профессий для испытуемого оказываются профессии «летчика» и «инспектора ГАИ». После того остается выяснить,

имеются ли у испытуемого реальные профессионально важные качества для того, чтобы претендовать на овладение этими профессиями.

Специально отметим, что СД используется и для диагностики самооценки. Достаточно попросить ребенка оценить самого себя по тому же самому набору шкал. В результате в семантическом пространстве появляется точка «Я». Степень удалении этой точки от «идеальной» — мера недовольства собой. Например, на рис.4 мы видим, что ребенок считает себя в целом «хорошим», но несколько «слабым» и оказывается ближе всех не к «летчику» и «инспектору ГАИ», а к «маляру».

Подчеркнем еще раз, что для успешного использования СД материал, который шкалирует ребенок, должен соответствовать по возрасту его кругу интересов, иначе ребенок просто наставит в бланке более или менее случайный узор отметок.

С младшими школьниками и дошкольниками СД лучше проводить в индивидуальной и устной форме, то есть все отметки на бланк должен заносить сам экспериментатор — по устным ответам ребенка. В качестве материала (объектов для оценки) лучше использовать сказочных персонажей или героев мультфильмов. Специальные исследования В. Ф. Петренко показали высокую эффективность этого материала в работе с детьми. Особая модификация СД допускает, чтобы сказочные персонажи обозначали не объекты, а полюса шкал. В этом случае родители, друзья и учителя будут сравниваться ребенком с определенными сказочными персонажами.

Специфические проблемы и трудности семейной идентификации или школьной адаптации могут проявиться в СД как в любой проективной методике. Например, нелюбимая старшая сестра может оказаться близкой в семантическом пространстве к «Бабе Яге», а завуч, которого ребенок просто боится, — к какому-нибудь «роботу-киллеру».

Тест конструктов

Более разнообразные и гибкие техники шкалирования по сравнению с СД собраны под единым названием «ТЕСТ КОНСТРУКТОВ» (Келли, 1965). Главная специфика теста конструктов — выяснение названия для шкальных полюсов в процессе общения с испытуемым. Этот процесс может быть вполне формализован: например, в форме сравнения по тройкам, когда испытуемого просят назвать лишний объект среди тройки объектов и назвать признак, которым он отличается от двух других* Этот признак и будет «личностным конструктом», то есть персональной шкалой, предложенной (сконструированной) самим испытуемым. После того, как конструкт выделен, дальнейшая процедура может быть в принципе такой же, как в СД.

Информативны прежде всего сами названия этих конструктов и их смысл. Если подросток сравнивает известных ему молодежных эстрадных кумиров по тому, кто из них «сидит на игле», а кто «уже завязал», то можно не сомневаться в том, что он так или иначе вовлечен в мир наркотиков. То есть тест конструктов оказывается более изощренным и косвенным диагностическим инструментом, чем опросник, содержащий прямые, «лобовые» вопросы. Известны успешные примеры применения теста конструктов для выявления скрытых противоправных тенденций. Дело в том, что в структуре сознания противоправного подростка понятия, обозначающие мир легальных и обозначающие мир криминальных явлений, разделяются более жестко — они разнесены на противоположные полюса семантического пространства.

Для того, чтобы построить семантическое пространство по результатам теста конструктов, необходимо воспользоваться определенными компьютерными программами. В отличие от СД конструкты нельзя заранее отнести к определенным глобальным факторам, так как они просто неизвестны. Поэтому приходится подвергать эти результаты факторному анализу. Первичные данные теста конструктов имеют вид таблицы (она также называется матрицей, или решеткой): по строкам — конструкты, по столбцам — объекты, в клетках таблицы — оценки, данные испытуемым. С помощью факторного анализа из каждой такой матрицы можно выделить факторы-конструкты, объединенные между собой по смысловому сходству. На сегодня в России уже имеются специализированные программы, позволяющие быстро строить семантические пространства по конструктам. Программа КЕЛЛИ также распространяется научной фирмой «Гуманитарные технологии».

Психодиагностической ценностью в тесте конструктов обладает не только содержание конструктов и факторов, но и число независимых факторов (размерность семантического пространства). Как правило, оно указывает на уровень дифференцированное™, развитости системы представлений испытуемого в той области, для которой проводился тест конструктов. Многократно показано, что для тех, кто увлекается, допустим спортом, существует больше независимых, не сводимых друг к другу конструктов именно в сфере спорта, а для тех, кто увлекается компьютерами, — в этой сфере.

Методику конструктов часто также называют «техникой репертуарных решеток». Имеется в виду такой прием, когда сам список однозначно названных объектов тоже не дается испытуемому, а дается только список инструкций о том, как эти объекты подбирать. Подобные инструкции и называются «репертуарными». Испытуемый, например, сам подбирает известных ему людей на роли «человека, которому можно доверять», «самого преуспевающего из знакомых», «самого неудачливого из знакомых» и т- п.

Многие психологи видят главную силу и пафос данного подхода в том, что выявление круга людей, объектов и явлений, важных для самого испытуемого, которых он описывает на своем собственном языке, позволяют получить не только ценную структурную информацию, но прежде всего дают бесценный капитал для сокращения дистанции в консультативном диалоге, так как после этого диалог идет на языке самого испытуемого о понятных ему и значимых для него вещах.

Ранжирование

Одна из многочисленных модификаций техник шкалирования представлена методиками ранжирования. В этом случае испытуемому дается перечень слов или развернутых названий объектов (либо графических стимулов), и его задачей оказывается расположить их по порядку убывания (или возрастания) какого-то признака. Наверное, самая известная реализация этой техники представлена тестом «цветовых предпочтений» Люшера, когда испытуемый раскладывает на столе 6 цветных карточек — по критерию «нравится — не нравится».

Очень часто с помощью техник шкалирования измеряется самооценка. Это методика, в частности, широко применялась знаменитым американским психотерапевтом-гуманистом К, Роджерсом. Вначале испытуемый ранжирует список качеств по тому, насколько они описывают его самого: «наблюдаются у меня — не наблюдаются у меня». Затем испытуемый ранжирует эти же качества по их выраженности у «идеального человека». Обработка результатов состоит в расчете ранговой корреляции между двумя ранжировками. Содержательная логика здесь та же, что и при сравнении семантических профилей в СД. К. Роджерс показал, что у невротизированной личности наблюдается «отвержение образа Я» — резкий контраст между идеалом и реальностью. Такая нетерпимость к себе у подростка, которому свойственна максималистская «Я-концепция», — источник внутренней конфликтности, которая нередко прорывается во внешних протяжных реакциях.

Ранжировке могут подвергаться не только словесные названия черт личности, но и графические символы. Например, в методике КИСС (Соколова, Федотова, 1982) вместо словесных обозначений используются схематические изображения разных лиц. Когда количество инструкций (проранжируй по сходству с отцом, с матерью и т. п.) увеличивается, то мы получаем опять же ранговую решетку (матрицу) конструктов, которую следует обрабатывать уже на компьютере — чтобы «вычерпать» из нее всю наиболее ценную информацию.



Парные сравнения и сортировка

Различают парные сравнения по предпочтению и по сходству. В первом случае мы имеем дело с более трудоемким и надежным вариантом методики ранжирования. Отличие в том, что когда испытуемый сравнивает все пары объектов — каждого с каждым, то возникает возможность получения дополнительной ценной информации — о противоречиях в системе предпочтений. Это так называемые «нетранзитивные тройки»- Например, испытуемый предпочитает красный цвет синему, синий — зеленому, а зеленый почему-то ставит выше красного. Круг замыкается. Эти данные могут быть весьма ценными в профконсультации, когда выбор идет из небольшого круга реально доступных и обсуждаемых школьником

профессий.

При большом числе объектов методика парных сравнений оказывается слишком трудоемкой и продолжительной. Например, при 10 объектах необходимо выполнить 9 • 5=45 сравнений, и это еще выполнимо, а при 20 уже 19 • 10=190, и это уже очень тяжело из-за большой монотонности этого задания.

Часто за противоречиями (за нетранзитивными тройками) лежат разные субъективные критерии сравнения, разные личностные конструкты. Для их выявления применяется, кроме упомянутого выше сравнения по тройкам, парное сравнение по сходству. Для каждой пары объектов испытуемый дает суждение о том, насколько они похожи или близки между собой. Получается матрица N • N, которая затем обрабатывается различными компьютерными методами, и объекты автоматически размещаются в семантическом пространстве. Следом возникает задача интерпретации координат этого пространства. Лучше всего, когда она решается в диалоге с самим испытуемым, это отличный материал для углубления контакта и взаимопонимания с испытуемым.

Вырожденный случай парных сравнений по сходству — методика сортировки. Здесь каждой паре объектов испытуемый ставит в соответствие фактически один из двух возможных баллов сходства — «похожи» или «непохожи», так как все сходные объекты испытуемый помещает в один класс. Методика позволяет охватить гораздо больше объектов, так как более экономична. Это могут быть 80—100 названий профессий (в профконсультации), известных людей (артисты, спортсмены, политики, ученые) и т. п.

Показано, что чем больше количество классов, на которые сортирует испытуемый объекты, тем более разветвленной и дифференцированной является внутренняя система понятий испытуемого, а также более аналитичным является его так называемый «когнитивный стиль».

Методику сортировки удобно применять при КОГНИТИВНОЙ ДИАГНОСТИКЕ — для изучения уровня сформированности системы понятий в какой-то научной или профессиональной отрасли знаний. Для этого надо предложить вначале выполнить данную методику эксперту — специалисту в данной области, а затем результаты учащегося сравниваются с эталонными результатами специалиста. В результате быстро можно понять, где именно в голове учащегося осталась неразбериха и путаница.

Определенной разновидностью парных сравнений является «КАУЗОМЕТРИЯ» (Головаха, Кро-ник, 1982). В этом случае испытуемый сначала называет наиболее важные события своей жизни в прошлом и ожидаемые события в будущем, а затем для каждой пары событий оценивает наличие «причинных» связей (каузальных связей). Возникает причинная графическая схема, показывающая основные «линии жизни», их возможные переплетения, противоречия, умы. Методика очень полезна как подспорье в работе консультанта по проектированию карьеры (профконсультанта).

В заключение данного раздела еще раз повторим, что большинство методик шкалирования требуют более высокой квалификации исполнителя, чем стандартные тесты.




Достарыңызбен бөлісу:
1   2   3   4   5




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет