25
В Нидерландах существует несколько справочников по психодиагностике. Наиболее часто встречаемые в них определения таковы: «Клиническая психодиагностика (понимаемая как психодиагностика, ориентированная на конкретного человека, его вопросы и проблемы) есть процесс принятия решений, в котором теоретическая ориентация и эмпирические исследования существуют как единое целое, что и определяет область приложения сил клинической диагностики». Очевидно, что объектом исследования является конкретный человек, но в процессе исследования должно быть учтено все многообразие знаний психологической науки. ДеЗеу пишет: «Назначением психодиагностики является оценка индивидуальных различий, эта • информация в дальнейшем может быть использована так, чтобы способствовать позитивным изменениям в жизни индивида». В последних изданиях при определении психодиагностики акцент делается на процессе принятия решений.
Однако сфера психодиагностики не является исключительной «собственностью» психологов, пишущих о ней книги. У широкого круга людей, профессионально никак не связанных с психологией, также имеются определенные представления о диагностах и диагностике. Интересно мнение студентов—психологов о том, кто такой «психодиагност». С их точки зрения, это человек, знающий жизнь. Он также «судья, интервьюер, детектив, следователь, человек, который может оказать помощь, человек, принимающий решения, ученый, тот, кто собирает и перерабатывает информацию, просто любопытный человек, наблюдатель, предсказатель, человек с развитым чувством интуиции, исполнитель черновой работы, тот, кто сам ставит и решает проблемы».
Некоторые определения затрагивают такие вопросы, как организация самого процесса психодиагностики, например, отбор и организация работы специалистов-психодиагностов. В процессе отбора решается вопрос о компетентности или некомпетентности претендентов. Следующий вопрос — как организовать работу новых сотрудников, чтобы она была максимально эффективной. Кроме этого, в процессе психодиагностики могут возникнуть такие вопросы, как помощь в решении жизненных проблем клиента или классификация и оценивание.
1.3. Психодиагностика: четыре компонента и три уровня
Существует множество различных определений психодиагностики. Это многообразие обусловливается тем, что диагностические процедуры используются во многих областях и с разными целями. В такой ситуации можно предложить еще одно определение психодиагностики. Это вполне обычное положение дел для психологии, где существует множество понятий, теорий, концепций и методов. Предлагаемое нами определение не есть нечто радикально новое: предпринята попытка связать в единое целое отдельные элементы психодиагностики, объединить теоретические представления и диагностические процедуры.
Психодиагностика описывается как единство четырех компонентов:
-
теории тестов или психометрии;
-
теоретических представлений об индивидуальных различиях, психическом развитии и различиях в социальном окружении. Эти теории дают нам важные понятийные конструкты;
3)тесты, методики и процедуры, как-то: задания, вопросы, задачи, тестовые пробы, системы подсчета результатов, типы интерпретаций. Методики связаны с исходными теоретическими представлениями; 4)процесс диагностики. О четырех компонентах.
Выделенные четыре компонента психодиагностики сопоставимы с четырьмя компонентами языка. Язык выполняет множество функций, и, соответственно, может быть определен разными способами. Не существует одной теории, способной охватить все стороны человеческого языка. Создание такой теории, по-видимому, невозможно, да и вряд ли в этом есть необходимость (Bloom, 1993, стр. 40). В филологии существует четыре области знания: синтаксис (грамматика), фонология, семантика и прагматика. Все перечисленные области имеют одинаково важное значение. Все.эти компоненты в равной степени необходимы для процессов передачи речевого сообщения, его восприятия и понимания. Но, безусловно, каждый компонент может изучаться отдельно.
26
27
О трех уровнях.
Как уже упоминалось выше, профессиональные психологи являются не единственными пользователями психологической и психодиагностической информации. Обычные люди, чьи профессиональные занятия далеки от психологии, также имеют свои собственные представления об индивидуальных различиях, о причинах, вызывающих изменения поведения и о процессах развития. Этот уровень представлений мы называем уровнем здравого смысла или уровнем обыденных (житейских) представлений, в данной книге этот уровень будет рассмотрен применительно к каждому предметному содержанию.
Второй уровень определяется тем, что существует множество психологических теорий, конструктов и концепций. Эти теории признаются исследователями в большей или меньшей степени. Вместе с выдвигаемыми гипотезами и психологическими методами они образуют основу научной психологии.
На третьем уровне представлены попытки математического моделирования поведения. Некоторые типы поведения не могут быть (может быть, пока) рассмотрены на этом уровне. И классическая теория, и современная теория тестов содержат примеры математического моделирования некоторых феноменов и типов поведения.
В психологии существуют теории различного уровня — от рабочих гипотез до математического моделирования отдельных феноменов поведения. Сноу (1973) проводит различие между уровнем теории и последующим тестированием. Два упомянутых выше уровня могут быть рассмотрены как два полюса одной шкалы.
При всех существующих различиях между названными уровнями, они не являются совершенно независимыми, так как тесно взаимосвязаны. У них одна цель — понять поведение, мышление, эмоции отдельного человека или группы людей. Но взаимоотношения между уровнями не свободны от некоторых противоречий. Так, легко обвинить в ненаучности житейские представления, к тому же, сторонники психометрических процедур могут отвергнуть тесты, поскольку те основаны на слишком неопределенных психологических теориях, а не на строго обоснованных (классических) теориях тестов. На наш взгляд, то обстоя-
28
тельство, что эти три уровня не находятся в полной гармонии, не является недостатком. Задача данной книги — показать, что хотя эти три уровня имеют свою собственную динамику и могут быть противопоставлены друг другу, между ними существуют и точки соприкосновения. Это положение будет раскрыто в последующих главах.
Приведенная ниже схема иллюстрирует соотношение четырех вышеназванных компонентов и трех уровней.
Таблица 1
|
Теория тестов
|
Психологические теории и понятия
|
Тесты и методические средства
|
Диагностический процесс
|
Уровень обыденного сознания
|
например,
понятие
«надежный»
/человек/
|
например,
приписывание
личности
тех или
иных характеристик
|
например,
отбор
информации
на уровне
здравого
смысла
|
например,
оценивание
на уровне
здравого
смысла
|
Уровень психологический теорий и концепций
|
например, повторяемость
|
например, теория черт
|
например,
некоторые
тесты
|
например, эмпирический и диагностический циклы
|
Уровень математического моделирования
|
rХХ-
отношение
истинной
дисперсии
к общей
дисперсии
|
модели личности, сконструированные на
основе
факторного
анализа
|
шкалы, имеющие теоретическую основу
|
например,
нормативные
модели
решения
|
1.3.1. Теория тестов Первый компонент, теория тестов, содержит описание статистических моделей обработки диагностических данных. Здесь содержатся модели анализа ответов в тестовых заданиях и модели подсчета суммарных результатов теста. Мелленберг (1980, 1990) назвал это «психометрией». Классическая теория тестов, современная теория тестов (или модель анализа ответов на задания тестов — IRT) и модель
29
выборки заданий составляют три наиболее важных типа моделей теории тестов. Предметом рассмотрения психодиагностики являются первые две модели.
Классическая теория тестов. На основе этой теории разработано большинство интеллектуальных и личностных тестов. Центральным понятием этой теории является понятие «надежности». Под надежностью понимается согласованность результатов при повторном оценивании. В справочных пособиях это понятие обычно представляется очень кратко, а затем дается подробное описание аппарата математической статистики. В этой, вводной, главе мы представим сжатое описание основного значения отмеченного понятия. В классической теории тестов под надежностью понимается повторяемость результатов нескольких процедур измерения (преимущественно измерений при помощи тестов). Понятие надежности предполагает вычисление ошибки измерения. Результаты, полученные в процессе тестирования, могут быть представлены как сумма истинного результата и ошибки измерения:
Xi = Ti + Еj
где Xi — оценка полученных результатов, Ti — истинный результат, а Еj — ошибка измерения.
Оценка полученных результатов — это, как правило, количество правильных ответов на задания теста. Истинный результат можно рассматривать как истинную оценку в платоновском смысле (Gulliksen, 1950). Широко распространенным является понятие ожидаемых результатов, т.е. представлений о баллах, которые могут быть получены в результате большого числа повторений процедур измерения (Lord & Novich, 1968). Но проведение одной и той же процедуры оценивания с одним человеком не представляется возможным. Поэтому необходим поиск других вариантов решения проблемы (Witlman, 1988).
В рамках этой концепции делаются некоторые допущения относительно истинных результатов и ошибок измерения. Последние принимаются в качестве независимого фактора, что, конечно, является вполне обоснованным предположением, так как случайные колебания результатов не дают ковариаций: rЕЕ=0.
Предполагается, что корреляции между истинными баллами и ошибками измерения не существует: rEE=0.
Суммарная ошибка равна 0, т.к. в качестве истинной оценки берется среднее арифметическое значение:
Эти допущения приводят нас в итоге к известному определению надежности как отношения истинного результата к общей дисперсии или выражению: 1 минус отношение, в числителе которого ошибка измерения, а в знаменателе — общая дисперсия:
, ИЛИ
Из этой формулы определения надежности получаем, что дисперсия ошибки S2(E) равна общей дисперсии в числе случаев (1 – rXX'); таким образом, стандартная ошибка измерения определяется по формуле:
После теоретического обоснования надежности и его производных необходимо определить индекс надежности того или иного теста. Существуют практические процедуры оценивания надежности тестов, такие как использование взаимозаменяемых форм (параллельные тесты), расщепление заданий на две части, повторное тестирование и измерение внутренней согласованности. Каждый справочник содержит индексы постоянства тестовых результатов:
rXX’=r(x1, x2)
где rXX’ — коэффициент стабильности, а x1 и x2 — результаты двух измерений.
Понятие надежности взаимозаменяемых форм введено и разработано Гулликсеном (1950). Данная процедура достаточно трудоемка, поскольку связана с необходимостью создания параллельной серии заданий
rXX’=r(x1, x2)
где rXX’ — коэффициент эквивалентности, а x1 и x2 — два параллельных теста.
30
31
Следующая процедура — расщепление основного теста на две части А и В — более проста в использовании. Показатели, полученные по обеим частям теста, коррелируются. С помощью формулы Спирмена-Брауна оценивается надежность теста в целом:
,
где А и В — две параллельные части теста.
Следующий метод — определение внутренней согласованности выполнения заданий теста. Этот метод основан на определении ковариаций отдельных заданий. Sg — дисперсия произвольно выбранного задания, и Sgh — ковариация двух произвольно выбранных заданий. Наиболее часто используемый коэффициент для определения внутренней согласованности — это «коэффициент альфа» Кронбаха. Используются также формула КР20 и λ—2 (лямбда-2).
В классической концепции надежности определяются ошибки измерения, возникающие как в процессе тестирования, так и в процессе наблюдений. Источники этих ошибок различны: это могут быть и личностные особенности, и особенности условий тестирования, и сами тестовые задания. Существуют конкретные методы вычисления ошибок. Мы знаем, что наши наблюдения могут оказаться ошибочными, наши методические инструменты несовершенны так же, как несовершенны и сами люди. (Как не вспомнить Шекспира: «Ненадежен ты, чье имя человек»). То, что в классической теории тестов ошибки измерения эксплицируются и объясняются, является важным положительным моментом.
Классическая теория тестов имеет ряд существенных особенностей, которые можно рассматривать и как ее недостатки. Некоторые из этих характеристик отмечаются в справочниках, но их значение (с житейской точки зрения) подчеркивается нечасто, как не отмечается и то, что с теоретической или методической точки зрения их следует считать недостатками.
Первое. Классическая теория тестов и понятие надежности ориентированы на подсчет суммарных тестовых показателей, представляющих собой результат сложения оценок, полученных в отдельных заданиях. Так, при работе
с тестом, содержащим 40 заданий (при оценке 0 или 1балл), существует несколько возможных вариантов сочетаний конкретных заданий, при которых можно получить, например, 20 баллов. Таким образом, de facto любое задание можно заменить другим.
Второе. Коэффициент надежности предполагает оценку величины разброса измеряемых показателей. Отсюда следует, что коэффициент надежности будет ниже, если (при равенстве других показателей) выборка является более однородной. Не существует единого коэффициента внутренней согласованности заданий теста, этот коэффициент всегда «контекстуален». Крокер и Альджина (1986), например, предлагают специальную формулу «коррекции для гомогенной выборки», предназначенную для самых высоких и самых низких результатов, полученных проходящими тестирование. Для диагноста важно знать характеристики вариаций в выборочной совокупности, иначе он не сможет использовать коэффициенты внутренней согласованности, указанные в руководстве к данному тесту.
Третье. Феномен сведения к показателю среднего арифметического является логическим следствием классической концепции надежности. Если оценка в тесте колеблется (т.е. она недостаточно надежна), то вполне возможно, что при повторении процедуры субъекты, имеющие низкие показатели, получат более высокие баллы, и наоборот, субъекты с высокими показателями — низкие. Этот артефакт процедуры измерения нельзя ошибочно принять за истинное изменение или проявление процессов развития. Но в то же время разграничить их нелегко, т.к. никогда нельзя исключить возможность изменения в ходе развития. Для полной уверенности необходимо'сравнение с контрольной группой.
Четвертая характеристика тестов, разработанных в соответствии с принципами классической теории,— это наличие нормативных данных. Знание тестовых норм позволяет исследователю адекватно интерпретировать результаты тестируемых. Вне норм тестовые оценки лишены смысла. Выработка тестовых норм — это достаточно дорогостоящее предприятие, поскольку психолог должен получить результаты тестирования на репрезентативной выборке.
32
2 Я. тер Лаак
33
Если говорить о недостатках классической концепции надежности, то здесь уместно привести высказывание Сий-тсма (1992, р. 123—125). Он отмечает, что первое и главное предположение классической теории тестов состоит в том, что тестовые результаты подчиняются интервальному принципу. Однако никаких исследований, подтверждающих это предположение, нет. По сути, это «измерение по произвольно установленному правилу». Данная особенность ставит классическую теорию тестов в менее выгодное положение по сравнению со шкалами измерения установок и, конечно же, по сравнению с современной теорией тестов. Многие методы анализа данных (дисперсионный анализ. регрессионный анализ, корреляционный и факторный анализ) основаны на допущении существования интервальной шкалы. Однако оно не имеет твердого обоснования. Рассматривать шкалу истинных результатов как шкалу значений психологических характеристик (например, арифметических способностей, интеллекта, нейротизма) можно только предположительно.
Второе замечание касается того, что результаты выполнения теста — это не абсолютные показатели той или иной психологической характеристики тестируемого, их необходимо рассматривать лишь как результаты выполнения того или иного теста. Два теста могут претендовать на изучение одних и тех же психологических характеристик (например, интеллекта, вербальных способностей, экстраверсии), но это не означает, что эти два теста равноценны и обладают одинаковыми возможностями. Сравнение показателей двух людей, прошедших тестирование разными тестами, некорректно. То же относится и к заполнению двух разных тестов одним испытуемым. Третье замечание относится к предположению, что стандартная ошибка измерения одинакова применительно к любому уровню измеряемых способностей индивида. Однако не существует эмпирической проверки этого предположения. Так, например, нет гарантии того, что тестируемый с хорошими математическими способностями при работе с относительно простым арифметическим тестом получит высокие баллы. В этом случае высокую оценку скорее получит человек с низкими или средними способностями.
В рамках современной теории тестов или теории анализа ответов в заданиях теста содержится описание большого
количества моделей возможных ответов респондентов. Эти модели различаются положенными в их основу допущениями, а также требованиями по отношению к получаемым данным. Модель Раша часто рассматривается в качестве синонима теорий анализа ответов в заданиях теста (1RT). На самом деле это только одна из моделей. Представленная в ней формула для описания характеристической кривой задания g выглядит следующим образом:
где g — отдельное задание теста; ехр — функция экспоненты (нелинейная зависимость); δ («дельта») — уровень трудности теста.
Другие задания теста, например h, также получают собственные характеристические кривые. Выполнение условия δh>δg (g означает, что h — более трудное задание. Следовательно, для любого значения показателя Θ («тета» — латентные свойства способностей тестируемых) вероятность успешного выполнения задания h меньше. Эта модель называется строгой, поскольку очевидно, что при низкой степени выраженности черты вероятность выполнения задания близка к нулю. В этой модели нет места угадыванию и предположениям. Для заданий с вариантами выбора нет необходимости делать предположения о вероятности успеха. Кроме того, эта модель строга в том смысле, что все задания теста должны иметь одинаковую дискриминатив-ную способность (высокая дискриминативность отражается в крутизне кривой; здесь возможно построение шкалы Гут-тмана, согласно которой в каждой точке характеристической кривой вероятность выполнения задания меняется от О до 1). Из-за этого условия не все задания могут быть включены в тесты, созданные на основе модели Раша.
Существует несколько вариантов этой модели (например, Birnbaura, 1968, См. Lord & Novik). Она допускает существование заданий с различной дискриминативной
способностью.
Голландский исследователь Моккен (1971) разработал две модели анализа ответов в заданиях теста, требования которых не так строги, как в модели Раша, и поэтому, возможно, более реалистичны. В качестве основного усло-
34
35
вия Моккен выдвигает положение о том, что характеристическая кривая задания должна следовать монотонно, без обрывов. Все задания теста при этом направлены на изучение одной и той же психологической характеристики, измерять которую должна в. Допускается любая форма этой зависимости, пока она не прервется. Следовательно, форма характеристической кривой не определяется какой-либо специфической функцией. Такая «свобода» позволяет использовать больше заданий теста, и уровень оценивания при этом оказывается не выше, чем обычный.
Методология моделей ответов на задания теста (IRT) отличается от методологии большинства экспериментальных и корреляционных исследований. Математическая модель предназначена для изучения поведенческих, когнитивных, эмоциональных характеристик, а также феноменов развития. Эти рассматриваемые феномены часто ограничиваются ответами на задания, что позволило Мел-ленбергу (1990) назвать теорию IRT «мини-теорией о мини-поведении». Результаты исследования могут быть в определенной степени представлены как кривые согласованности, особенно в тех случаях, когда теоретические представления об изучаемых характеристиках отсутствуют. До сих пор в нашем распоряжении имеются лишь единицы тестов интеллекта, способностей и личностных тестов, созданных на основе многочисленных моделей теории IRT. Варианты модели Раша чаще используются при разработке тестов достижений (Verhelst, 1993), а модели Моккена больше подходят для феноменов развития (см. также гл. 6).
Ответ тестируемого на задания теста является основной единицей моделей IRT. Тип ответа определяется степенью выраженности у человека изучаемой характеристики. Такой характеристикой могут быть, например, арифметические или пространственные способности. В большинстве случаев это тот или иной аспект интеллекта, характеристики достижений или личностные особенности. Предполагается, что между положением данного конкретного человека в некотором диапазоне изучаемой характеристики и вероятностью успешного выполнения того или иного задания существует нелинейная зависимость. Нелинейность этой зависимости в определенном смысле интуитивно понятна. Известные фразы «Всякое начало трудно» (медленный не-
линейный старт) и «Стать святым не так просто», означают что дальнейшее совершенствование после достижения определенного уровня идет трудно. Кривая медленно приближается, но почти никогда не достигает 100%-го уровня успеха.
Некоторые модели скорее противоречат нашему интуитивному пониманию. Возьмем такой пример. Человек с индексом выраженности произвольной характеристики равным 1,5 имеет 60-процентную вероятность успеха при выполнении задания. Это противоречит нашему интуитивному пониманию такой ситуации, ведь можно либо успешно справиться с заданием, либо не справиться с ним вообще. Возьмем такой пример: 100 раз человек пытается взять высоту 1м 50 см. Успех сопутствует ему 60 раз, т.е. он имеет 60-процентную вероятность успеха.
Для оценки степени выраженности характеристики необходимо, по крайней мере, два задания. Модель Раша предполагает определение выраженности характеристик вне зависимости от трудности задания. Это также противоречит нашему интуитивному пониманию: предположим, что человек имеет 80-процентную вероятность прыгнуть выше 1,30 м. Если это так, то в соответствии с характеристической кривой заданий он имеет 60-процентную вероятность прыгнуть выше 1,50 м и 40-процентную вероятность прыгнуть выше 1,70 м. Следовательно, вне зависимости от значения независимой переменной (высоты) можно оценить способность человека прыгать в высоту.
Существует около 50 моделей IRT (Goldstein & Wood, 1989).Имеется множество нелинейных функций, описывающих (объясняющих) вероятность успеха в выполнении задания или группы заданий. Требования и ограничения этих моделей различны, и эти различия могут быть обнаружены при сопоставлении модели Раша и шкалы Моккена. К требованиям этих моделей можно отнести:
-
необходимость определения исследуемой характеристики и оценку позиции человека в диапазоне этой черты;
-
оценку последовательности заданий;
-
проверку конкретных моделей. В психометрии разработано множество процедур для проверки модели.
В некоторых справочных пособиях теория IRT рассматривается как форма анализа заданий теста (см., например,
Достарыңызбен бөлісу: |