В основу предложенной модели легли наработки двух существующих систем: европейской модели EFPA 4.2.6 (2013 года) и голландской модели CoTAN (2009 года). Работа над создаваемой моделью проводилась в следующем порядке:
-
Перевод критериев базовых моделей. Полностью был осуществлен только перевод голландской модели (см. Приложение А), поскольку официальный перевод евромодели уже существует и, с внесением необходимых правок (так как на русский была переведена устаревшая версия евромодели) мог быть использован для анализа системы.
-
Объединение критериев по семи направлениям (см. ниже). Группы критериев (так называемые, направления оценивания) были преимущественно заимствованы из базовых моделей и объясняются логикой требований тестологии (например, направления «Нормы», «Надежность», «Валидность»), однако часть разделов была перегруппирована (скажем, раздел «Валидность», разнесенный в европейской и голландской моделях на критериальную и конструктную валидность, был объединен в общее направление).
-
Доработка пояснений критериев и дополнение ссылками на отечественных экспертов. Разные авторы дают различающиеся ориентиры по требования к размерам выборок и величинам показателей надежности и валидности. По возможности, была предпринята попытка цитировать отечественных авторов-практиков. Кроме того, в голландской и европейской моделях нет различий по требованиям к тестам из разных сфер (т. е. образовательные, личностные, профессиональные тесты должны оцениваться по единым стандартам, в то время как сегодня актуальны исследования по специфике критериев качества для инструментов оценивания из разных сфер), в связи с чем в разрабатываемой модели была использована доступная информация по дифференциации требований к инструментам из разных областей применения.
-
Аудит получившейся модели у внешних экспертов и внесение правок. В качестве экспертов были привлечены директор Центра оценки качества образования ИСМО РАО Ковалева Г.С. и руководитель учебной программы «Измерения в психологии и образовании» НИУ ВШЭ и ИРО Орел Е.А.
-
Пробное оценивание инструмента тестирования по критериям модели (апробация) и внесение правок. Образовательные методики, разработкой которых занимается Центр мониторинга качества образования, создавались с оглядкой на голландскую модель экспертизы тестов, из-за чего требования этой системы уже учитывались в них, поэтому для чистоты эксперимента для пробного оценивания была использована «внешняя» методика – личностный «Краткий тест жизнестойкости» (авторы Осин Е.Н. и Рассказова Е. И.).
Разработанная модель состоит из следующих направлений оценивания теста:
-
Руководство по использованию теста. В данном разделе оценивается качество составления руководство для пользователей. У теста может быть несколько категорий пользователей, имеющих разные полномочия, но для всех них инструмент должен быть описан полно и ясно. Необходимость составления руководств еще не стала частью отечественной традиции тестологии, информацию о многих новых инструментах до сих пор можно встретить только в научных статьях разработчиков, либо в форме «методичек», объединяющих самую разнообразную информацию об инструменте. В предложенной модели описание критериев оценки руководства пользователя составлялось таким образом, чтобы этими критериями можно было пользоваться как инструкцией к составлению руководства пользователя теста.
-
Техническое руководство. Как и в случае с руководством пользователя, техническое руководство еще не стало в нашей стране обязательным документом, сопровождающим любой серьезный инструемнт. Техническое руководство должно содержать подробную и полную информацию о тесте, позволяющую специалисту обоснованно оценить качество и применимость инструмента. Среди специалистов тестологии существует мнение, что такие трудоемкие документы как руководство пользователя и техническое руководство необходимы не всем тестам, однако они (или их информационные аналоги) обязательно должны присутствовать у массовых тестов и тестов высоких ставок.
-
Качество реализации тестовых материалов. В данном разделе оцениваются материалы для бланкового (3.1 Качество реализации тестовых материалов -- бланковое тестирование) и компьютеризированного тестирования (3.2 Качество реализации тестовых материалов (компьютерное или интернет-тестирование) с точки зрения их информативности, понятности, эстетичности, соответствия санитарным нормам. Эксперт оценивает не только верстку бланка, но и качество бумаги и печати, качество цветопередачи, интерфейс программы, то есть не содержание, а исполнение инструмента.
-
Теоретические основы теста. Направление «Теоретические основы теста» было разделено на две части, в первой (4.1) оценивается подробность и убедительность описания теоретических основ теста, а во второй (4.2) описание проведенных исследований. Если в направлениях 1 и 2 (см. выше) эксперт проверял наличие в руководствах описаний соответствующего критерия, то здесь и далее он оценивает качество приведенного описания.
5. Интерпретация результатов. Тесты могут быть нормативно-ориентированными (НОРТ) или критериально-ориентированными (КОРТ). В голландской и европейской моделях тесты КОРТ подразделяются на собственно критериально-ориентированное тестирование (то есть, определение пороговых баллов) и предметно-ориентированное тестирование (domain-referenced tests), в котором пороговые/проходные баллы определяются на основе содержательных критериев. Однако в отечественной тестологии подобное дробление тестов КОРТ не поддерживается (см., например, Бурлачук «Психодиагностика», Шмелев А.Г. «Практическая тестология») и поэтому два раздела были объединены в один. В третьем опциональном подразделе оценивается качество составление формы обратной связи.
6.Надежность. В направлении оценивания «Надежность» оценивается качество исследований надежности инструмента. По возможности, в нем (а также в следующем разделе «Валидность») использовались рекомендации из отечественной научной литературы и предложено дифференциальное оценивание требований надежности для личностных и когнитивных тестов.
7.Валидность. В данном разделе оценивается качество исследований валидности теста. Как уже было сказано, в разрабатываемой модели не поддерживается разделение оценки валидности по двум отдельным направлениям («Критериальная» и «Конструктная валидность»), как это сделано в европейской и голландской моделях.
Как и в исходных моделях, голландской и европейской, оценивание критериев предусматривает проставление баллов за них, с последующим выведением среднего балла по критерию. Шкала проставления баллов за критерии была сохранена по аналогии с европейской моделью (шкала «0 -- нет информации, 1 – неадекватно, 2 -- адекватно, 3 — хорошо, 4 – отлично), однако эти баллы используются для удобства эксперта, помогая ему быстро вспомнить проведенную работу по оцениванию, а содержательную оценку каждого из направлений оценивания эксперт может выразить в небольшом (до 2000 символов) резюме по каждому из семи разделов.
В Приложении 2 представлено как выглядит система критериев с инструкциями для экспертов. Результаты экспертизы заносятся в отдельный бланк (Приложение 3).
Достарыңызбен бөлісу: |