Инструкция для эксперта и модель экспертизы тестов Приложение 3 Лист рейтинга по результатам экспертизы теста

жүктеу/скачать 0.52 Mb.

бет	13/15
Дата	16.07.2016
өлшемі	0.52 Mb.
	#203078
түрі	Инструкция

1 ... 7 8 9 10 11 12 13 14 15

7 Валидность

6. Надежность

6 Ключевой вопрос: Имеется ли информация о надежности теста? Если ответ отрицательный, переходите к п. 7.1

6.1	Процедуры вычисления коэффициентов надежности	Дано подробное описание процедур вычисления надежности теста, позволяющее проследить, какие коэффициенты использовались и как они были получены	1	2	3	4
6.2	Состав выборки для определения надежности теста	Дано описание составления выборки, и она по своему составу релевантна цели тестирования. Из описания удается можно сделать вывод, могут ли ее особенности повлиять на размер коэффициента надежности в сторону завышения или занижения (например, гомогенность выборки и т.д.)	1	2	3	4
6.3	Размер выборки^⁸	Методы классической теории тестирования (Внутренняя согласованность / Ретестовая надежность / Эквивалентные и взаимозаменяемые формы) Нет информации — 0 Размер выборки менее 100 человек — 1 Размер выборки 100-200 человек — 2 Размер выборки более 200 человек — 3 Несколько исследований надежности с размерами выборки в каждом более 200 человек — 4 Методы IRT^⁹ В зависимости от модели IRT адекватной (оценка — 2) будет выборка с минимальным объемом 200 человек для однопараметрической модели 400 человек для двухпараметрической модели, 700 человек для трехпараметрической модели ( (справедливо и для дихотомических моделей, и для политомических моделей).	1	2	3	4
6.4	Размеры коэффициентов надежности	Методы классической теории тестирования^¹⁰ Для тестов, по результатам которых принимают важные решения (например, отбор сотрудников, получение места в образовательной программе и т.п.) r < 0,80 неадекватно; 0,80 ≤ r < 0,90 адекватно; r ≥0,90 хорошо. Для тестов, предназначенных для принятия менее важных решений на индивидуальном уровне (например, оценка результатов обучения ит.п.) r < 0,70 неадекватно; 0,70 ≤ r < 0,80 адекватно; r ≥ 0,80 хорошо. Для тестов, предназначенных для исследованиях на групповом уровне: r < 0,60 неадекватно; 0,60 ≤ r < 0,70 адекватно; r ≥ 0,70 хорошо. Методы IRT (separation reliability)^¹¹ Нет информации — 0 Неадекватно (r < 0.70; information < 3.33) — 1 Адекватно (0.70 ≤ r < 0.80; 3.33 ≤ information < 5.00) — 2 Хорошая (0.80 ≤ r < 0.90; 5.00 ≤ information < 10.00) — 3 Отличная (r ≥ 0.90; information ≥ 10.00) — 4	1	2	3	4
6.5	Общая адекватность оценки надежности	Можно ли обоснованно судить о надежности теста на основании предоставленной информации? Процедуры/коэффициенты выбраны правильно Назначение теста (высокие/низкие ставки) соответствует размеру показателей надежности Приведено более одного коэффициента надежности	1	2	3	4

Резюме: Общая оценка исследований надежности теста (500-2500 знаков)

7 Валидность

7 Ключевой вопрос: Представлены ли доказательства валидности теста? Если ответ отрицательный, поставьте прочерк в листе рейтинга.

7.1	Содержательная валидность (если применимо)	Приведено обоснование содержательной валидности теста (например, результаты экспертизы или теоретическое обоснование).	1	2	3	4
7.2	Исследование размерности теста	Приведены результаты исследования размерности теста (например, методом факторного анализа). Результаты соответствуют заявленной размерности теста. Приведены результаты исследования размерности более, чем одним способом, например, в рамках как классической теории, так и других методов (IRT, структурное моделирование)	1	2	3	4
7.3	Тестологические свойства теста	Задания теста имеют оптимальные показатели трудности и дискриминативности/дифференцирующей способности заданий. Задания теста имеют удовлетворительные психометрические характеристики Дистракторы функционируют правильно Варианты теста параллельны (если применимо) Тест имеет удовлетворительные показатели надежности	1	2	3	4
7.4	DIF анализ (анализ различного функционирования заданий по отношению к различным группам участников)	Имеются доказательства инвариантности результатов тестирования по отношению к различным группам участников, в тесте отсутствует DIF Проверены все релевантные для целей теста группы участников (например, по полу, месту жительства, родному языку и пр.)	1	2	3	4
7.5	Конвергентная и/или дискриминативная валидность^¹² (если применимо)	Установлена релевантность выбранного для корреляции инструмента Размер корреляции r при исследовании конвергентной валидности составляет 0,2-0,3 для психологических тестов (для выставления оценки, 2/«адекватно»)^¹³, в тестах достижений и способностей требования к размеру коэффициента могут быть выше Размер выборки составляет 100-200 человек (для оценки 2/«адекватно)^¹⁴ При относительно невысоких значениях коэффициентов корреляции этим результатам имеется объяснение (особенности выборок или использованных инструментов и т.п.)	1	2	3	4
7.6	Критериальная валидность^¹⁵ (текущая, прогностическая или ретроспективная валидность)	Правильны ли процедуры, использованные при получении и обработке данных по критериальной валидности? Соответствуют ли выборки, использованные при исследовании критериальной валидности, предполагаемому использованию теста? Имеются доказательства того, что выбран релевантный критерий. Интервалы допустимых значений коэффициента корреляции (в исследовании критериальной валидности) составляют^¹⁶: Тесты достижений (знаний), измеряющие относительно узкий конструкт или область конструкта, — 0,5-0,7 Тесты достижений и тесты способностей, измеряющие относительно широкий конструкт, — 0,4-0,6 Личностные тесты-опросники и кейс-тесты — 0,2-0,4	1	2	3	4
7.7	Как давно проводились исследования валидности	Исследованиям валидности больше 15 лет – слишком давно Исследованиям валидности меньше 15 лет -- допустимо	1	2	3	4

Резюме: Общая оценка адекватности исследований, упоминание других исследований валидности.

жүктеу/скачать 0.52 Mb.

Достарыңызбен бөлісу:

1 ... 7 8 9 10 11 12 13 14 15