Научно-исследовательский университет
Высшая школа экономики
Магистерская диссертация по теме:
Построение модели экспертизы инструментов оценивания в психологии и образовании
Студентки группы 701: Антипкиной И. В.
Научный руководитель: канд. физ.-мат. наук Карданова Е.Ю.
Москва 2014
Содержание:
1 Введение
2 Обзор литературы. История аудита тестов: от национальных стандартов к международным
2.1 США
2.2 Голландия
2.3 Британия
2.4 Германия
2.5 Швеция
2.6 Финляндия
2.7 Бразилия
2.8 Международные стандарты
2.9 Сравнительные особенности моделей экспертизы тестов
2.10 Современное состояние экспертизы тестов в России
3 3.Теоретическая часть
3.1 Специфика разрабатываемой модели
3.2 Процесс разработки модели и направления оценивания
3.3 Коррекция модели
Для апробации методики использовалась «Краткая версия теста жизнестойкости» (разработчики Осин Е.Н., Рассказова Е.И.). В качестве тестовых материалов были предоставлены две научных статьи по результатам апробации теста и методичка, посвященная исходной (длинной) его версии. Поскольку тест разрабатывался по научному гранту и не выступает коммерческим продуктом, у него отсутствует сопроводительная документация (руководство пользователя и техническое руководство). Это позволяет проиллюстрировать необходимость повторов в критериях: поскольку оценка первых двух разделов модели (руководства пользователя и технического руководства) автоматически получает рейтинг 0 (нет информации), свойства теста полноценно исследуются в других разделах на материалах статей.
Приложения
Приложение 1 Голландская модель экспертизы тестов CoTAN (2009)
Приложение 2 Инструкция для эксперта и модель экспертизы тестов
Приложение 3 Лист рейтинга по результатам экспертизы теста
Приложение 4 Комментарии к критериям
Введение
Контрольная экспертиза или аудит качества тестов (под тестом здесь понимается любой инструмент с известными психометрическими характеристиками, предназначенный для измерения и оценивания определенных аспектов поведения/знаний/умений/навыков испытуемых, результатом которого является некий балл или оценка, полученные стандартизированным способом) является стандартной процедурой экспертного оценивания качества инструментов измерения в области психологии, образования и кадровой политики в странах с развитой культурой тестирования. Согласно Бартраму, результат экспертизы теста дает пользователю-практику ценную независимую информацию о сильных и слабых сторонах инструмента. Аудит тестов также защищает права испытуемых на то, чтобы их оценивали качественным инструментом (в американских стандартах APA, AERA & NCME сказано, что «Испытуемые имеют право быть оцененными с помощью тестов, которые соответствуют текущим профессиональным стандартам, в том числе стандартам технического качества, справедливости, администрирования и сообщения результатов»). Хотя положения психометрики универсальны, в разных странах разработаны несколько отличающиеся друг от друга системы экспертизы. Выявление этих различий и попытки их объяснить будут полезны для разработки/адаптации российской модели экспертизы тестов. Несмотря на то, что положения теорий тестирования универсальны, особенности страны сказываются и на национальных моделях оценивания. Например, в США стандарты используются при решении судебных дел, связанных с исками о качестве тестирования (например, при поступлении на работу) и потому выверены юридически, в Голландии, где традиция оценивания тестов восходит к 1960-м гг, система экспертизы очень жесткая, а в Бразилии, где обязательной экспертизе тесты стали подвергаться сравнительно недавно, она, наоборот, достаточно мягкая.
В данной работе будет рассмотрена история экспертизы тестов в разных странах, а также предпринята попытка выявить особенности российской ситуации с области тестологии для создания модели оценивания инструментов, пригодной для использования в практике Центра мониторинга качества образования Института развития образования Высшей Школы Экономики. Деятельность Центра мониторинга качества образования связана в первую очередь с образовательными исследованиями, однако тестирование в области педагогики может быть связано с личностными тестами, социальными опросниками и даже профессиональными тестами, поэтому в модели оценивания была предпринята попытка максимально подробно описать критерии для возможных областей тестирования. Модель разрабатывалась на основе двух существующих систем: голландской модели CoTAN и европейской модели EFPA. Для верификации модели было проведено пробное оценивание теста, а также использована экспертная оценка.
Обзор литературы. История аудита тестов: от национальных стандартов к международным
Если рассматривать вопрос экспертизы тестов хронологически, то сначала стандарты появились в отдельных профессиональных организациях, а затем на их опыте были разработаны национальные и международные стандарты. На сегодняшний день собственные или заимствованные модели экспертизы тестов существуют во многих государствах, однако их статус (в первую очередь, в правовом аспекте) сильно разнится от страны к стране. В различиях между моделями экспертизы из разных стран отражаются особенности и длительность истории тестологии в каждой стране. Ниже описана история создания и эксплуатации моделей экспертизы тестов в странах с наиболее развитой или быстро развивающейся тенденцией применения инструментов оценивания (тестов) в различных сферах жизни, от образования и профессионального отбора до клинической психологии.
2.1 США
История централизованной экспертизы тестов и других измерительных инструментов началась в США, где еще в 1895 году был учрежден первый Комитет по психометрике Американской психологической ассоциации. В 1938 году вышло первое издание существующего до сих пор «Ежегодника по психометрике» (в другом переводе «Ежегодника психических измерений») Буроса. Оскар Бурос основал свою инициативу на волне зарождающегося движения по защите прав потребителей США и рассматривал психометрику как отрасль, в которой клиенты (пользователи тестов и испытуемые) имеют право получать за свои деньги качественный продукт (тесты). Поэтому основным критерием отбора тестов для экспертизы всегда была их коммерческая доступность. В ежегодниках Буроса содержатся обзоры англоязычных образовательных и психологических тестов, а целью Буроса было познакомить профессиональное сообщество с имеющимися на рынке инструментами и повлиять на разработчиков тестов с целью уменьшить количество разработок за счет улучшения их качества. Бурос организовал процесс экспертизы по аналогии с рецензированием статей в научных журналах. После была выработана двухэтапная аккредитация. На первом этапе эксперт посещает разработчика/издателя теста, оценивает организационную структуру, создание теста, его администрирование, психометрические методы и технику безопасности. Когда эта стадия (аккредитация провайдера теста) пройдена, наступает стадия аккредитации самого продукта. Два эксперта пишут свои рецензии объемом 1000-1500 слов, которые публикуются полностью, за исключением скорректированных редактором повторов. Эксперты не получают за свой труд никакой платы, кроме бесплатного экземпляра ежегодника, в котором содержится их обзор. Сегодня Центр тестирования Института психических изменений Буроса (Buros Institute of Mental Measurements/Center for Testing) – это независимое агентство при университете Небраски (г. Линкольн). В его базе содержатся данные 900 экспертов. В настоящее время Центр тестирования Буроса просит своих экспертов пользоваться при аудите стандартами APA, AERA & NCME (см. ниже), а также (при оценке компьютеризированных тестов) Руководством для компьютерного тестирования Ассоциации издателей тестов (Guidelines for Computer-Based Testing: the Association of Test Publishers (ATP, 2001).
История стандартов APA, AERA & NCME началась в 1954 году, когда Американская психологическая ассоциация (APA) опубликовала Технические рекомендация для психологических тестов и диагностических техник (Technical Recommendations for Psychological Tests and Diagnostics Techniques), а через год Американская ассоциация образовательных исследований (AERA) и Государственный совет по измерениям в образовании (NCME) создали аналогичный документ для образовательных тестов (1955, Technical Recommendations for Achievement Tests). К 1966 году три эти организации (APA, AERA и NCME) объединили свои усилия и разработали общие Стандарты для образовательного и психологического тестирования (Standards for Educational and Psychological Tests and Manuals, APA, AERA & NCME), которые обновлялись и дорабатывались в 1974, 1985, 1999, 2009 и 2013 (с обозначенной датой публикации в 2014) годах. Сами организации-разработчики не занимаются сертификацией тестов, зато продают стандарты как отдельный продукт, которым пользуются множественные агентства, занятые сертификацией и аккредитацией профессионалов, а также фирмы-разработчики тестов. На стандарты APA, AERA & NCME широко ссылаются в судебных процессах, преимущественно, трудовых спорах.
Параллельно со стандартами APA, AERA & NCME в 1981 году появились Стандарты для образовательного тестирования компании ETS, ставшие частью корпоративной политики этого крупнейшего разработчика тестов, которые обновлялись в 1987 и 2000 годах. Стандарты APA, AERA & NCME и стандарты ETS очень схожи, с той разницей, что стандарты ETS создавались под специфические продукты ETS, в то время как APA, AERA & NCME старались разработать процедуры аудита для максимально широкого спектра инструментов. Стандарты ETS интересны еще и тем, что это внутренние стандарты компании (хотя аудит проходит в ряде случаев с привлечением внешних экспертов). Для реализации внутрикорпоративного аудита (с регулярностью минимум раз в три года) создан специальный отдел обеспечения качества корпоративной продукции. Все эксперты проходят подготовку и кроме критики должны вносить предложения по коррекции замеченных недостатков. Участвовать в аудите имеют право клиенты (им же открыты результаты экспертизы). Модель оценивания очень гибкая, поскольку для оценки разных продуктов могут привлекаться разное количество экспертов и даже команд экспертов, им предоставляется разное количество материалов и разное время для работы. Как будет показано дальше, в других моделях организационные аспекты аудита одинаковы для любого оцениваемого инструмента.
Для аккредитации программ по отбору персонала в США существует Национальная комиссия сертификационных агентств (NCCA), которая является подразделением Национальной организации по удостоверению компетентностей (National Organization for Competency Assurance (NOCA). В отличие от центра Буроса, в NCCA занимаются аккредитацией только программ по отбору персонала. Компания может обратиться за аккредитацией, только если их программа проработала уже год или по ней были оценены хотя бы 500 кандидатов. Стандарты NCCA были выпущены в конце 1970-х гг и переработаны в 2002 году. В NCCA сообщают, что их стандарты согласуются со стандартами APA, AERA & NCME и применимы ко всем профессиям и индустриям. В качестве непрерывного мониторинга, аккредитованные организации обязаны ежегодно присылать годовой отчет в течение всего пятилетнего аккредитационного периода.
Наконец, необходимо упомянуть Американский национальный институт стандартизации (ANSI, The American National Standards Institute), который является членом Международной организации по стандартизации (ISO). ANSI занимается только двумя программами сертификации: для менеджеров безопасности пищевой промышленности (стандарты были разработаны на основе материалов Конференции о защите пищи, Conference for Food Protection) и программой аккредитации персонала, основанной на международных стандартах ISO/IEC 17024 (2003), которой пользуются многие правительства американских штатов. Это общий национальный стандарт для агентств по сертификации персонала.
Достарыңызбен бөлісу: |