Инструкция для эксперта и модель экспертизы тестов Приложение 3 Лист рейтинга по результатам экспертизы теста


Процесс разработки модели и направления оценивания



бет6/15
Дата16.07.2016
өлшемі0.52 Mb.
#203078
түріИнструкция
1   2   3   4   5   6   7   8   9   ...   15

3.2 Процесс разработки модели и направления оценивания


В основу предложенной модели легли наработки двух существующих систем: европейской модели EFPA 4.2.6 (2013 года) и голландской модели CoTAN (2009 года). Работа над создаваемой моделью проводилась в следующем порядке:


  1. Перевод критериев базовых моделей. Полностью был осуществлен только перевод голландской модели (см. Приложение А), поскольку официальный перевод евромодели уже существует и, с внесением необходимых правок (так как на русский была переведена устаревшая версия евромодели) мог быть использован для анализа системы.

  2. Объединение критериев по семи направлениям (см. ниже). Группы критериев (так называемые, направления оценивания) были преимущественно заимствованы из базовых моделей и объясняются логикой требований тестологии (например, направления «Нормы», «Надежность», «Валидность»), однако часть разделов была перегруппирована (скажем, раздел «Валидность», разнесенный в европейской и голландской моделях на критериальную и конструктную валидность, был объединен в общее направление).

  3. Доработка пояснений критериев и дополнение ссылками на отечественных экспертов. Разные авторы дают различающиеся ориентиры по требования к размерам выборок и величинам показателей надежности и валидности. По возможности, была предпринята попытка цитировать отечественных авторов-практиков. Кроме того, в голландской и европейской моделях нет различий по требованиям к тестам из разных сфер (т. е. образовательные, личностные, профессиональные тесты должны оцениваться по единым стандартам, в то время как сегодня актуальны исследования по специфике критериев качества для инструментов оценивания из разных сфер), в связи с чем в разрабатываемой модели была использована доступная информация по дифференциации требований к инструментам из разных областей применения.

  4. Аудит получившейся модели у внешних экспертов и внесение правок. В качестве экспертов были привлечены директор Центра оценки качества образования ИСМО РАО Ковалева Г.С. и руководитель учебной программы «Измерения в психологии и образовании» НИУ ВШЭ и ИРО Орел Е.А.

  5. Пробное оценивание инструмента тестирования по критериям модели (апробация) и внесение правок. Образовательные методики, разработкой которых занимается Центр мониторинга качества образования, создавались с оглядкой на голландскую модель экспертизы тестов, из-за чего требования этой системы уже учитывались в них, поэтому для чистоты эксперимента для пробного оценивания была использована «внешняя» методика – личностный «Краткий тест жизнестойкости» (авторы Осин Е.Н. и Рассказова Е. И.).

Разработанная модель состоит из следующих направлений оценивания теста:




  1. Руководство по использованию теста. В данном разделе оценивается качество составления руководство для пользователей. У теста может быть несколько категорий пользователей, имеющих разные полномочия, но для всех них инструмент должен быть описан полно и ясно. Необходимость составления руководств еще не стала частью отечественной традиции тестологии, информацию о многих новых инструментах до сих пор можно встретить только в научных статьях разработчиков, либо в форме «методичек», объединяющих самую разнообразную информацию об инструменте. В предложенной модели описание критериев оценки руководства пользователя составлялось таким образом, чтобы этими критериями можно было пользоваться как инструкцией к составлению руководства пользователя теста.




  1. Техническое руководство. Как и в случае с руководством пользователя, техническое руководство еще не стало в нашей стране обязательным документом, сопровождающим любой серьезный инструемнт. Техническое руководство должно содержать подробную и полную информацию о тесте, позволяющую специалисту обоснованно оценить качество и применимость инструмента. Среди специалистов тестологии существует мнение, что такие трудоемкие документы как руководство пользователя и техническое руководство необходимы не всем тестам, однако они (или их информационные аналоги) обязательно должны присутствовать у массовых тестов и тестов высоких ставок.




  1. Качество реализации тестовых материалов. В данном разделе оцениваются материалы для бланкового (3.1 Качество реализации тестовых материалов -- бланковое тестирование) и компьютеризированного тестирования (3.2 Качество реализации тестовых материалов (компьютерное или интернет-тестирование) с точки зрения их информативности, понятности, эстетичности, соответствия санитарным нормам. Эксперт оценивает не только верстку бланка, но и качество бумаги и печати, качество цветопередачи, интерфейс программы, то есть не содержание, а исполнение инструмента.




  1. Теоретические основы теста. Направление «Теоретические основы теста» было разделено на две части, в первой (4.1) оценивается подробность и убедительность описания теоретических основ теста, а во второй (4.2) описание проведенных исследований. Если в направлениях 1 и 2 (см. выше) эксперт проверял наличие в руководствах описаний соответствующего критерия, то здесь и далее он оценивает качество приведенного описания.

5. Интерпретация результатов. Тесты могут быть нормативно-ориентированными (НОРТ) или критериально-ориентированными (КОРТ). В голландской и европейской моделях тесты КОРТ подразделяются на собственно критериально-ориентированное тестирование (то есть, определение пороговых баллов) и предметно-ориентированное тестирование (domain-referenced tests), в котором пороговые/проходные баллы определяются на основе содержательных критериев. Однако в отечественной тестологии подобное дробление тестов КОРТ не поддерживается (см., например, Бурлачук «Психодиагностика», Шмелев А.Г. «Практическая тестология») и поэтому два раздела были объединены в один. В третьем опциональном подразделе оценивается качество составление формы обратной связи.


6.Надежность. В направлении оценивания «Надежность» оценивается качество исследований надежности инструмента. По возможности, в нем (а также в следующем разделе «Валидность») использовались рекомендации из отечественной научной литературы и предложено дифференциальное оценивание требований надежности для личностных и когнитивных тестов.
7.Валидность. В данном разделе оценивается качество исследований валидности теста. Как уже было сказано, в разрабатываемой модели не поддерживается разделение оценки валидности по двум отдельным направлениям («Критериальная» и «Конструктная валидность»), как это сделано в европейской и голландской моделях.
Как и в исходных моделях, голландской и европейской, оценивание критериев предусматривает проставление баллов за них, с последующим выведением среднего балла по критерию. Шкала проставления баллов за критерии была сохранена по аналогии с европейской моделью (шкала «0 -- нет информации, 1 – неадекватно, 2 -- адекватно, 3 — хорошо, 4 – отлично), однако эти баллы используются для удобства эксперта, помогая ему быстро вспомнить проведенную работу по оцениванию, а содержательную оценку каждого из направлений оценивания эксперт может выразить в небольшом (до 2000 символов) резюме по каждому из семи разделов.

В Приложении 2 представлено как выглядит система критериев с инструкциями для экспертов. Результаты экспертизы заносятся в отдельный бланк (Приложение 3).




Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   15




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет