|
Направление оценивания
|
Средний балл
|
Резюме
|
1
|
Руководство по использованию теста
|
|
|
2
|
Техническое руководство
|
|
|
3.1
|
Качество реализации тестовых материалов (бланковое тестирование).
|
|
|
3.2
|
Качество реализации тестовых материалов (компьютерное или интернет-тестирование).
|
|
|
4.1
|
Теоретические основы теста – Теория/дискурс
|
|
|
4.2
|
Теоретические основы теста – Описание исследований
|
|
|
5.1
|
Нормативно-ориентированное тестирование
|
|
|
5.2
|
Критериально-ориентированное тестирование
|
|
|
5.3
|
Форма обратной связи
|
|
|
6
|
Надежность
|
|
|
7
|
Валидность
|
|
|
Приложение 4 Комментарии к критериям
Предлагаемая модель критериев была основана на двух активно эксплуатируемых моделях, голландской модели (модель Нидерландского комитета по тестированию, CoTAN) и европейской модели (модель Европейской федерации психологических ассоциаций, EFPA) и адаптирована к существующей в России теории и практике тестирования. Для упрощения работы с ней ниже предлагаются комментарии, содержащие пояснения и отсылки к соответствующей литературе.
1. Руководство пользователя
-
Для пользователей руководство будет основным источником информации, поскольку нельзя предполагать, что у каждого из них окажется возможность читать посвященные тесту научные статьи, диссертации и т.п. В России еще нет практики обязательной разработки руководства пользователя для теста, по крайней мере, если это некоммерческий тест. Однако наличие руководства расширяет сферу применения инструмента. Согласно голландским критериям, тест принимается к экспертизе только при наличии руководства пользователя. В данной системе нет подобного жесткого правила, однако наличие руководства желательно, поскольку оно говорит, как минимум, о серьезности подходов разработчиков и содержит в себе важную для пользователей информацию.
-
Инструкция по проведению тестирования. Описание этапов проведения теста – это обязательный компонент инструкции пользователя. Не все российские методики имеют описание проведения теста, предполагается, видимо, что пользователю достаточно раздать бланки или включить программу и потом собрать отчетность. При этом только подробные описания помогут стандартизировать время и условия проведения тестирования, чтобы результаты были сопоставимы с выборкой стандартизации. В хорошо написанной и подробной инструкции должны освещаться затруднения, которые могут встретиться у пользователя, возможны примеры-кейсы, а в некоторых случаях даже видео-примеры проведения оценивания. Подробность инструкций зависит от важности и значимости результатов тестирования для испытуемых.
1.2 Полнота информации по подсчету баллов. В некоторых бланковых тестах подсчетом баллов занимается тот пользователь, который проводил тестирование, в других эта обязанность лежит на иной категории пользователей. Система подсчета баллов считается объективной, когда значения баллов за все возможные ответы на все задания теста таковы, что любой квалифицированный человек, их подсчитывающий, начислит испытуемому одно и то же количество баллов (без учета ошибок в расчетах). Это особенно касается бумажных версий теста и опросников с множественным выбором. Для шкал наблюдения или вопросов типа эссе выставление баллов не может быть строго объективным. Пользователю должны даваться инструкции, как учитывать пропущенные вопросы (как пропуск или как ошибку, это зависит от используемой модели тестирования). Если в тесте используются ответные ключи (шаблоны с прорезями), то должны иметься инструкции как наложить шаблон с ключами на бланк ответов. Помимо описания процедуры подсчета баллов, разработчикам желательно указать, каким образом они подстраховались от ошибок при подсчете. Например, перепроверялись ли результаты автоматического (заложенного в компьютерную программу) подсчета баллов и т.п.
-
Полнота информации о нормировании. Нормы помогают интерпретировать сырой балл. Не для всех тестов требуются нормы, поэтому требуется обоснование, если их у теста нет. Нормы можно получить путем анализа области навыков (критериально-ориентированное тестирование) или из распределения баллов (нормативно-ориентированное тестирование). В странах, где традиция тестирования хорошо развита, нормы положено обновлять хотя бы раз в 15 лет (или чаще, если в тесте производятся изменения). Особенно нормы важны для тестов с ограничением по времени.
-
Полнота информации по интерпретации результатов. В руководстве пользователя помимо описаний интерпретации результатов могут приводиться и так называемые трудные случаи, например, что делать с пограничными результатами, с расхождением оценок экспертов (если к оцениванию привлекалось более одного эксперта).
-
Представление результатов тестирования. Обратная связь может быть устной и письменной. Бывают тесты, в которых подробность обратной связи остается на усмотрение пользователя (скажем, учитель может делать разные акценты на результатах оценивания для родителей разных детей, исходя из учебных задач, либо у него может стоять задача в любом случае сообщить нечто положительное), а бывают ситуации когда есть ограничения по распространяемой информации (например, в образовательном тесте младших школьников может запрещаться рассказывать родителям ребенка о результатах других детей в классе, даже если родитель задает такой вопрос).
-
Справедливость оценивания участников тестирования. Для того, чтобы тест был легитимным он должен быть справедливым, что в первую очередь касается ситуации различного функционирования заданий (DIF, differential item functioning), которая возникает, когда две группы тестируемых с одинаковым уровнем способности (измеряемой черты) с разным успехом выполняют одно и то же задание. При разработке тестов проверка на РФЗ – один из этапов подготовки инструмента. Деление на группы диктуется особенностями теста, например, по полу, по национальности, уровню образования, проживанию в городе-деревне и т.п. Авторы могут пересмотреть задание (например, если в нем упоминаются реалии, мало знакомые для одной из подгрупп тестируемых). Описание проведенных процедур поможет пользователю удостовериться, что он использует качественный инструмент. В руководстве достаточно дать информацию о том, что подобный анализ проводился.
-
Полнота информации по ограничениям теста. Помимо описаний того, для каких групп предназначен тест, в руководстве могут содержаться сведения, для каких групп или для каких целей его нельзя использовать.
-
Справочная и сопроводительная литература. Указывая список литературы, использованной при создании инструмента, авторы помогают пользователю самостоятельно расширить знания о предмете тестирования. В случае образовательного тестирования, в список могут входить книги и статьи, которые помогут пользователю-учителю лучше подготовить тестируемых.
Техническое руководство
-
Если руководство пользователя (см. выше) рассчитано на пользователя без тестологической подготовки (школьного психолога, учителя и пр), то техническое руководство должно быть составлено таким образом, чтобы квалифицированный пользователь, обладающий знаниями по психометрике, мог оценить тест и разобраться в особенностях его применения. В данном разделе оценивается именно наличие информации в руководстве, а в последующих разделах будет оцениваться уже полнота, качество технической информации о тесте, которая может быть получена не только из руководства, но и других предоставленных источников (статей, диссертаций и т.п.).
-
Описание теоретических основ теста. Результаты тестирования служат основанием для принятия решений об изменениях и качествах людей (например, в контексте оценки учебных результатов или при профориентации школьников), о различиях между людьми (как при отборе персонала) и различиях между группами или ситуациями (при диагностике организаций). Предоставленная авторами теста информация должна помочь будущему пользователю теста понять, соответствует ли этот инструмент его целям. Цели и целевые группы теста, а также описание конструкта – обязательны к упоминанию в руководстве.
2.2 Разработка инструмента. Описание этапов разработки поможет пользователю понять, все ли этапы разработки инструменты были пройдены. Описание разработки заданий создается для экспертов, которые пишут задания (например, со ссылкой на учебную программу). Разработанные задания должны пройти апробацию (пилотирование теста), то есть пробное тестирование на выборке, похожей на целевую. Благодаря этому тестированию будут получены показатели заданий (их трудность, их дифференцирующая способность/дискриминативность). После апробации, как правило, проводится коррекция заданий и еще одна апробация. Если у теста предусмотрены разные варианты, или он должен проводить из года в год на разных выборках, то авторы должны описать, какой процедурой они пользовались, чтобы результаты разных групп оказались на одной шкале.
2.3 Разработка теста с помощью перевода /адаптации (если применимо). Очень многие инструменты переводятся в России с других языков (чаще всего английского). Самого по себе лингвистического перевода содержания заданий недостаточно, необходимы еще исследования или применение методов, подтверждающих, что инструменты аналогичны. К таким методам относятся обратный перевод и экспертная оценка культурной и языковой сопоставимости содержания теста.
2.4 Апробация. Описание выборки апробации поможет пользователю понять, соответствует ли эта выборка его целевой группе. Описание процедур апробации и результатов коррекции заданий позволит оценить полноценность разработки инструмента. Время апробации тоже должно соответствовать времени проведения тестирования (особенно, если это связано с оценкой результатов обучения).
2.5 Нормы (если применимо). По описанию размеров, состава и дизайна групп нормирования, пользователь-эксперт сможет составить свое мнение об особленностях предложенных норм и их пригодности для его целей.
2.6 Надежность теста. Дисперсия тестовых баллов состоит из истинной и ошибочной дисперсии. Источники ошибочной дисперсии могут варьироваться. Эти источники до определенной степени отражаются в индексах надежности. Различные формы надежности зависят от анализируемых в определенных исследованиях ошибок. Более того, результаты исследования надежности будут различаться в разных группах (особенно сильное влияние оказывает гомогенность групп по отношению к исследуемому конструкту). Наиболее часто применяемый в России показатель надежность – это коэффициент внутренней согласованности альфа Кронбаха.
2.7 Валидность теста. Валидность – это до какой степени тест выполняет свои цели. Можно ли из тестовых баллов сделать подобающие выводы. В данной системе, как и в базовых голландской и европейской, использована классификация валидности по трем категориям, разработанная в Американской психологической ассоциации. Эти категории: конструктная валидность, критериальная валидность, содержательная валидность. Содержательная валидность основывается на оценивании содержания теста. Конструктная валидность отвечает на вопрос «Что измеряется тестом?» Измеряется ли то, что и намеревались измерить, или что-то другое? Распространенные методы подтверждения конструктной валидности: факторный анализ для подтверждения размерности, сравнение среднего балла групп, которые по замыслу должны различаться, и высчитывание корреляций с тестами, которые предположительно измеряют аналогичный конструкт. Этот тип исследования сравнительно прост и результаты могут дать начальные показания доказательств конструктной валидности. Критериальная валидность показывает, что тестовые баллы систематически относятся к одному внешнему критерию (или более). В этом контексте обычно используется термин «прогноз». Прогноз может фокусироваться на будущем (прогностическая валидность), настоящем (текущая валидность) или прошлом (ретроспективная валидность). Критериальная валидность является частью процесса оценки конструктной валидности.
2.8 Защищенность баз данных материалов и баллов (если применимо). Требования защищенности могут относиться к базам заданий и к базам ответов.
Качество тестовых материалов
3.1.1 Соответствие оформления материалов санитарным нормам (если применимо). Все материалы, использующиеся в образовательном процессе, должны соответствовать установленным в стране санитарным нормам. Это касается размера и типа шрифтов, краски, верстки, качества бумаги и т.п.
3.1.2 Запись ответа. Данный пункт относится к оформлению ответного бланка. Главная задача верстки ответного бланка заключается в том, чтобы помочь тестируемому избежать ошибок при заполнении, поскольку такие ошибки не имеют отношения к содержанию теста. Например, ответные листы должны быть составлены таким образом, чтобы тестируемому легко было заметить пропуск ответа. Эксперт оценивает также читаемость шрифта, достаточность размера ответных полей, правильность нумерации заданий, логичность организации информации.
3.1.3 Ясность и полнота инструкций для участников тестирования. Инструкции для испытуемого должны быть стандартизованы и содержать:
-
Один пример задания (или более).
-
Информацию о том, как и куда записывать (или печатать – в компьютеризированных тестах) ответы.
-
Ответную стратегию (что делать, если на взгляд тестируемого альтернативы имеют одинаковую степень правдоподобия или применимости, стоит ли угадывать, стараться решать все подряд (в тестах возрастающей трудности) или оптимальнее будет пропустить задание и вернуться к нему, если останется время и т.п.).
-
Временные ограничения
3.1.4 Качество графики. В педагогическом тестировании качество графики и даже расположение картинки с правой или с левой стороны страницы, может повлиять на результат учащихся. Оценка графики – субъективное заключение эксперта, однако такие вещи как неправильная нумерация картинок или ее отсутствие, путаница с принадлежностью иллюстрации к тому или иному заданию, хорошо ли различаются цвета (даже для дальтоников) может быть замечена.
3.2.1 Качество интерфейса пользователя. Специальные нормы регламентируют санитарные параметры интерфейса и рабочего места (указаны в критерии), что особенно важно в образовательном тестировании.
3.2.2 Качество программного обеспечения. Разработчики должны показать, каким образом они защитили программу тестирования от потери данных, от случайных ошибок пользователей, насколько стабильность работы программы зависит от качества доступа к интернету и т.п.
3.2.3 Ясность и полнота инструкции. См. пункт 3.1.3
3.2.4 Безопасность против неавторизованного доступа к заданиям, ответам или результатам. Эксперт не обязан быть специалистом по безопасностям баз данных, однако разработчики теста могут указать, каким ГОСТам соотвествует их ПО. ГОСТы действуют на уровне государства, в них описываются алгоритмы, внедрение которых уже является коммерческой (как правило) наработкой разработчиков. Механизм ролей/ограничения прав доступа уровня приложения не позволит пользователям с ограниченными правами получить полный доступ ко всем функциям и данным, в частности к просмотру баз ответов/заданий.
3.2.5Качество графики. См. 3.1.4
Теоретические основы теста
4.1.1 Измеряемый тестом конструкт (конструкты). Авторы теста должны пояснить, отражает ли текст существующую теорию или основан на новых идеях, которые в конечном счете могут внести большие или малые поправки в эту теорию. Какой бы ни была лежащая в основании теста теория, она должна быть описана достаточно подробно. Когда для измерения конструкта используется исторически или традиционно применяемый тестовый метод (в отличие от методов с теоретическим основанием) необходимо обосновать, почему этот инструмент полезен для измерения этих конструктов. Эти описания должны показать преимущества нового инструмента над уже существующими.
4.1.2 Группы, для которых предназначен тест. Необходимо указать целевую группу (или группы) для применения теста, с такими подробностями как возраст, занятие, образовательный уровень и т.п.
4.1.3 Область применения теста. В некоторых тестах важно показать не только для чего можно использовать этот тест, но и для чего его использовать нельзя.
4.1.4 Ссылки на теорию и соответствующую литературу. Если тест является переводом или адаптацией иностранной методики, должна быть предоставлена информация о ней: списка литературы недостаточно. Даже если тест предположительно должен измерять хорошо известный конструкт, такой как интеллект, необходимо предоставить определение конструкта, чтобы пояснить, какие аспекты поведения относятся к данной области.
4.2.1 Разработка теста. См. п.2.2
4.2.2 Обоснование выбора модели IRT (если применимо). Современная теория тестирования (Item response theory, IRT) все шире применяется при создании инструментов измерения, но должны быть приведены данные исследований (статистики согласия, информационные функции теста), показывающие, что выбранная модель подходит данному тесту лучше других.
4.2.3 Процедуры установления эквивалентности вариантов (если применимо). Если в тесте больше одного варианта, либо тест предназначен для отслеживания достижений (т.е. проводится в разное время, например, каждый год на разных выборках), то должны проводиться процедуры выравнивания, которые используются также при создании банка заданий и в адаптивном тестировании. Существуют различные методы выравнивания. В рамках классической теории невозможно создать единую шкалу, хотя существуют методы выравнивания вариантов, такие как метод линейного выравнивания и метод равнопроцентильного выравнивания. В рамках современной теории тестирования возможности выравнивания шире, возможно создание общей шкалы, наиболее распространенные методы это метод общих заданий и метод общих испытуемых или их комбинации (подробнее, например, Карданова Е.Ю., Нейман Ю.М. Проблема выравнивания в современной теории тестирования // Вопросы тестирования в образовании. – 2003, № 8)
4.2.4 Справедливость заданий теста по отношению к различным группам участников. В первую очередь в данном пункте проверяется качество исследований заданий на РФЗ (различное функционирование заданий). РФЗ возникает, когда испытуемые с одинаковым уровнем подготовленности (уровнем измеряемой черты), относящиеся к разным группам, имеют разную вероятность успешно выполнить одно и то же задание. Наиболее популярные для выявления РФЗ методы -- это метод Мантеля-Хэнцеля, метод логистической регрессии и некоторые методы современной теории тестирования (IRT), такие как метод латентных переменных. Подробнее, например, в международной энциклопедии образования Эльзевир (2010) Differential Item Functioning M.D. Hidalgo, http://92.242.59.41:2086/10.1016/B978-0-08-044894-7.00242-6
Кроме того, в голландской и европейской системе оценки теста содержание теста подвергается экспертизе на предмет расистких или этноцентрических заданий. Содержание признается этноцентрическим, если содержит без необходимости трудные или связанные с культурой слова, идиомы или картинки. Исследователи пишут, что расисткий контент делает тест непригодным к использованию, а этноцентричность ограничивает сферу применения теста.
4.2.5 Процедуры перевода/адаптации теста. Эквивалентность измерений включает в себя: (а) эквивалентность конструктов, (b) эквивалентность тестов и (c) эквивалентность условий тестирования. Эквивалентность конструктов подразумевает сходство значений конструктов в культурах, для которых адаптируется тест. Тестовая эквивалентность включает в себя контентную, лингвистическую и культурную эквивалентность версий теста. Эквивалентность условий тестирования относится к тому, (а) одинаковым ли образом проводилось администрирование версий теста, (b) одинаково ли приемлем тестовый формат для обоих версий теста, (c) большим ли фактором была скорость ответов в одном языке, чем в другом, (d) использовались ли в разных тестах разные стили ответов испытуемых (например, тенденция соглашаться, тенденция угадывать, социальная желательность. Разработчикам желательно показать, как обеспечивалась эквивалентность измерений, например, использовался обратный перевод, экспертиза, другие методы.
Подробнее см. главу 26 Кадрие Эрсикан «Адаптирование тестов для использования в других культурах и на других языках» в DOI: 10.1037/14049-026 В APA Handbook of Testing and Assessment in Psychology: Vol. 3. Testing and Assessment in School Psychology and Education, K. F. Geisinger (Editor-in-Chief).
4.2.6 Анализ заданий теста. Разные типы заданий требуют разного анализа. Для дихотомических заданий необходимо проверить оптимальность их характеристик в рамках классической теории тестирования. Политомические задания (например, со шкалами Ликерта) оцениваются в современной теории тестирования, Исследователь должен убедиться, что эмпирические данные согласуются с используемой моделью и что ответные категории функционируют в соответствии с его ожиданиями. Результатом исследования функционирования шкалы может быть изменение количества ответных категорий путем объединения некоторых соседних категорий в одну.
4.2.7 Этапы разработки инструмента. См. п. 2.2
НОРТ
5.1.1 Соответствие нормирования целям тестирования (если применимо). Подсчет результатов теста обычно выражается в так называемом сыром балле. Понять сырой балл можно обратившись к нормам. Существует множество систем шкалирования для преобразования сырых баллов. Можно выбрать стандартные баллы, процентили, шкалы с различным количеством делений. Автор может создать новую систему или адаптировать существующую. Выбор системы шкалирования должен согласовываться с целью теста. Выбрав более грубую систему, можно пожертвовать точностью системы, но сделать ее понятнее. Какая бы система шкалирования ни использовалась, должны быть описаны черты и преимущества и недостатки выбранной системы, наряду с причинами ее выбора.
Очень важны такие аспекты выборки нормирования как скос, уплощенность, бимодальность, и т.п.. Пользователю теста нужна эта информация, чтобы правильно интерпретировать тестовые баллы.
5.1.2 Размер выборки. Выборки стандартизации должны отвечать двум требованиям для того, чтобы дать надежную информацию: репрезентативность по отношению к целевой группе (см. 5.1.3) и достаточный размер. Относительно достаточного размера существуют расхождения в мнениях экспертов. В данной системе приняты рекомендации модели экспертизы тестов EFPA 4.2.6.
5.1.3 Дизайн выборки стандартизации. Для оценки репрезентативности должны быть предоставлены сведения о дизайне выборки и процессе сбора данных. Часто эта информация представлена очень ограниченно. Из описания должно быть очевидным, какая генеральная совокупность рассматривается, были ли данные собраны локально или в масштабах страны, покрывал ли сбор данных население в среднем или были выбраны отдельные люди с определенными качествами (например, люди с определенным образовательным уровнем), каким был уровень участия и т.д. Довольно часто данные собираются на так называемой «выборке удобства», например, это клиенты компаний, студенты-психологи. В целом, эксперты сходятся на том, что обычно это плохая выборка для нормирования, поскольку причина тестирования этих людей может иметь отношение к тестовому баллу.
5.1.4 Как давно проводились нормативные исследования. Нормы подвержены эрозии и чувствительны к таким факторам, как социальные или образовательные изменения. В голландской и европейской системах принято периодически пересматривать тестовые нормы, либо путем проведения исследований доказывать, что в этом нет необходимости. Допустимость норм сохраняется в течение 15 лет.
Достарыңызбен бөлісу: |