Инструкция для эксперта и модель экспертизы тестов Приложение 3 Лист рейтинга по результатам экспертизы теста



бет15/15
Дата16.07.2016
өлшемі0.52 Mb.
#203078
түріИнструкция
1   ...   7   8   9   10   11   12   13   14   15

КОРТ

5.2.1 Определение пороговых оценок, проходных баллов. Когда для теста рекомендована интерпретация КОРТ, разработчики должны объяснить выбранный пороговый балл. Существуют различные методы, имеющие свои особенности. Метод Ангофа хорош своей прозрачностью, простотой и универсальностью, но поскольку оценивание проводится один раз, результат может содержать неустойчивые значения. Модифицированный метод Ангофа включает в себя два или более этапа оценивания, что уменьшает изменчивость рейтингов. Метод Эбеля может быть использован с заданиями, имеющими различные формы (не только множественный выбор). При использовании метода Недельски проходные баллы в итоге часто получаются ниже, чем полученные при использовании других методов.

5.2.2 Отбор и обучение экспертов. Эксперты, выбранные для определения проходных баллов, должны одинаково понимать свои задачи, а для этого требуется подготовка. Отбор и обучение экспертов будет зависеть от выбранного метода установления проходного балла.

5.2.3 Размер коэффициента согласованности между экспертами. Помимо размера коэффициента согласованности между экспертами, важное влияние могут оказать такие эффекты как эффект центральной тенденции (тенденция экспертов усреднять значения), эффект строгости/снисходительности (эксперты могут оценивать более или менее строго) и другие.

5.2.4 Как давно проводились исследования пороговых оценок. Указать год сбора данных нормирования важно для принятия решения о том, устарели ли нормы и если да, то насколько.
Надежность

6 Представлены ли результаты надежности теста. Наличие исследований надежности является обязательным условием хорошего теста.

6.1 Процедуры вычисления коэффициентов надежности? У разных типов надежности есть свои особенности, которые желательно учитывать при оценке. Надежность параллельных взаимозаменяемых) форм будет неубедительной, если у версий теста различные средние или стандартные отклонения или когда их параллелизм не убедителен в силу других причин.

Высокая внутренняя согласованность теста иногда достигается за счет измерения более узкого, чем предполагалось конструкта (если сконструированы почти идентичные задания или если задания схоже сформулированы, содержат общее специфическое слово), однако такой тест, возможно, принесет меньше пользы.

Нет строгих стандартов относительно оптимального интервала тест-ретест. Как правило, очень короткий интервал (до нескольких недель) не уместен, поскольку испытуемые еще хорошо помнят тест. Очень долгий интервал (более 1 года) также может не быть полезен, из-за внешних событий, которые изменяют навыки или личность испытуемых и тем самым влияют на результаты повторного тестирования. Определяя подходящий интервал, следует учитывать возраст испытуемых, характер и цель теста.

6.2 Состав выборки для определения надежности теста. Выборка должна соответствовать целевым группам теста.

6.3 Размер выборки. Размеры выборки цитируются по модели EFPA 4.2.6.

6.4 Размеры коэффициентов надежности. Нельзя делать общих заявлений о желаемом уровне коэффициентов надежности, потому что всегда нужно учитывать цель проведения теста. В голландской системе экспертизы тестов принято деление на тесты для важных решений, тесты для менее важных решений и групповые теста, критерии для которых разнятся. Подход может быть сформулирован иначе, например, вслед за Шмелевым А.Г., который делит строгость требований к коэффициенту альфа Кронбаха в зависимости от типа теста с более строгими требованиями к тестами достижений/знаний, менее строгими к тестам интеллекта и совсем мягкими к личностным тестам. Следует также учитывать наличие другой информации, например, в Голландии допустимая надежность «сделанных учителем» тестов равна 0,5, если баллы за тест комбинируются с другой информацией (баллами за другой тест или текущими оценками) для получения финальной оценки. Такой тест можно считать субтестом, поскольку он является частью общего балла. Этот пример приведен, чтобы подчеркнуть, что тест с неудовлетворительной надежностью все равно может быть полезен в диагностическом процессе при условии, что он используется в комбинации с другой информацией.

6.5 Общая адекватность оценки надежности. Ниже приведены примеры информации, которая должна быть доступа для здравой оценки качества исследования надежности:


  • Даны ли стандартные отклонения баллов тестовой и ретестовой группы?

  • Для тестов с ограничением по времени, дан ли процент испытуемых, которые ответили на каждый вопрос?

  • В полноте ли деталей описаны выборки, для которых рассчитывали коэффициенты надежности?

  • Упоминалось ли количество наблюдателей или экспертов, по оценкам которых производились расчеты коэффициентов надежности?

  • Обычно наблюдателей/экспертов тренируют для работы. Описание тренинга должно быть достаточно подробным, чтобы помочь новым пользователям теста подготовиться аналогично. Также важно отметить, относится ли сообщенный коэффициент надежности к оценкам, выданным одним экспертом или к усредненной оценке нескольких экспертов/наблюдателей.


Валидность

7 Представлены ли доказательства валидности теста? Наличие исследований валидности – обязательное условие теста.

7.1 Содержательная валидность (если применимо). Содержательная валидность оценивается двумя способами: экспертной оценкой или описанием теоретических основ.

7.2 Исследование размерности теста. Исследование размерности теста (или его субшкал) помогает понять, соответствует ли его факторная структура запланированной. Исследования могут проводиться методами традиционной статистики, методами IRT или структурного моделирования.

7.3 Тестологические свойства теста. Должна предоставляться информация о таких вещах как размер выборок и достаточно детализированное описание техник анализа. Исследования валидности должны проводиться на группах, для которых предназначен тест. Известно, что коэффициенты валидности могут значительно уменьшаться, когда вместо гетерогенной группы используется гомогенная (по отношению к измеряемой переменной).

Известно, что валидизация теста с помощью инструментов с низкой надежностью бесполезна, поскольку результаты будут неоднозначными (низкая корреляция может показать, что тест измеряет что-то другое или быть результатом низкой надежности другого теста), то же самое может произойти, если низкая надежность у самого оцениваемого теста.

7.4 DIF анализ (анализ различного функционирования заданий по отношению к различным группам участников). Отсутствие в тесте РФЗ является одним из показателей его валидности.

7.5 Конвергентная и/или дискриминативная валидность (если применимо). При выборе инструмента для валидизации нужно учитывать, что оба теста должны измерять похожие конструкты и иметь похожую надежность.

7.6 Критериальная валидность. Иногда выбор критерия очевиден и критериальные баллы легко получить, в других случаях разработчикам приходится придумывать критериальные измерения и организовывать их сбор. Во всех случаях критерий должен быть описан полностью, и должно быть указано, какие релевантные поведенческие аспекты включены в критериальное измерение, а какие нет. Чтобы не происходило загрязнения критерия, предиктор и критериальные баллы должны быть установлены независимо (этого, к примеру, не происходит, когда эксперт, который оценивает тестируемого, знает результаты ранее проведенного теста).

7.7 Как давно проводились исследования валидности. В России этот вопрос менее актуален, чем в Голландии и других европейских странах в силу короткой истории тестологии, однако критерий введен в систему на случай оценки тестов с давней историей создания.




1 Техническое руководство представляет собой «технический паспорт» инструмента оценивания, рассчитанный на читателя, обладающего знаниями по психометрике. Теоретически вся необходимая для оценивания инструмента информация должна содержаться в «Руководстве пользователя» и «Техническом руководстве».

2 В тестах возрастающей трудности имеет смысл подумать над трудным заданием, но если трудность заданий не возрастает, то лучше оставить сложное задание на потом и т.п.

3 Цитируется по модели экспертизы тестов CoTAN 2010

4 Случайная выборка, систематическая выборка, стратифицированная выборка, кластерная, выборка удобства, квота, «снежный ком» (когда просят друзей и знакомых оповестить их друзей и знакомых), целевая выборка, другое

5 Цитируется по модели экспертизы тестов EFPA 4.2.6

6 Цитируется по модели экспертизы тестов EFPA 4.2.6

7 Размер критерия взят из модели экспертизы тестов EFPA 4.2.6

8 Цитируется по модели экспертизы тестов EFPA 4.2.6

9 Цитируется по модели экспертизы тестов EFPA 4.2.6

10 Цитируется по модели экспертизы тестов CoTAN 2010

11 Цитируется по модели экспертизы тестов EFPA 4.2.6

12 Конвергентная валидность показывает, до какой степени два измерения конструкта, которые теоретически должны быть связаны, связаны между собой на самом деле.

13 Цитируется по Шмелев А.Г. «Практическая тестология», 2013

14 Цитируется по модели экспертизы тестов EFPA 4.2.6

15 Исследования по критериальной валидности должны показать, что инструмент является хорошим предиктором поведения или результата, не связанного с содержанием теста (Evers, A. et al., 2010).

16 Цитируется по Шмелев А.Г. «Практическая тестология», 2013



Достарыңызбен бөлісу:
1   ...   7   8   9   10   11   12   13   14   15




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет