6 Ключевой вопрос: Имеется ли информация о надежности теста? Если ответ отрицательный, переходите к п. 7.1
6.1
|
Процедуры вычисления коэффициентов надежности
| -
Дано подробное описание процедур вычисления надежности теста, позволяющее проследить, какие коэффициенты использовались и как они были получены
|
0
|
1
|
2
|
3
|
4
|
6.2
|
Состав выборки для определения надежности теста
| -
Дано описание составления выборки, и она по своему составу релевантна цели тестирования.
-
Из описания удается можно сделать вывод, могут ли ее особенности повлиять на размер коэффициента надежности в сторону завышения или занижения (например, гомогенность выборки и т.д.)
|
0
|
1
|
2
|
3
|
4
|
6.3
|
Размер выборки8
|
Методы классической теории тестирования (Внутренняя согласованность / Ретестовая надежность / Эквивалентные и взаимозаменяемые формы)
-
Нет информации — 0
-
Размер выборки менее 100 человек — 1
-
Размер выборки 100-200 человек — 2
-
Размер выборки более 200 человек — 3
-
Несколько исследований надежности с размерами выборки в каждом более 200 человек — 4
Методы IRT9
В зависимости от модели IRT адекватной (оценка — 2) будет выборка с минимальным объемом
-
200 человек для однопараметрической модели
-
400 человек для двухпараметрической модели,
-
700 человек для трехпараметрической модели ( (справедливо и для дихотомических моделей, и для политомических моделей).
|
0
|
1
|
2
|
3
|
4
|
6.4
|
Размеры коэффициентов надежности
|
Методы классической теории тестирования10
-
Для тестов, по результатам которых принимают важные решения (например, отбор сотрудников, получение места в образовательной программе и т.п.)
-
r < 0,80 неадекватно; 0,80 ≤ r < 0,90 адекватно; r ≥0,90 хорошо.
-
Для тестов, предназначенных для принятия менее важных решений на индивидуальном уровне (например, оценка результатов обучения ит.п.) r < 0,70 неадекватно; 0,70 ≤ r < 0,80 адекватно; r ≥ 0,80 хорошо.
-
Для тестов, предназначенных для исследованиях на групповом уровне: r < 0,60 неадекватно; 0,60 ≤ r < 0,70 адекватно; r ≥ 0,70 хорошо.
Методы IRT (separation reliability) 11
-
Нет информации — 0
-
Неадекватно (r < 0.70; information < 3.33) — 1
-
Адекватно (0.70 ≤ r < 0.80; 3.33 ≤ information < 5.00) — 2
-
Хорошая (0.80 ≤ r < 0.90; 5.00 ≤ information < 10.00) — 3
-
Отличная (r ≥ 0.90; information ≥ 10.00) — 4
|
0
|
1
|
2
|
3
|
4
|
6.5
|
Общая адекватность оценки надежности
| -
Можно ли обоснованно судить о надежности теста на основании предоставленной информации?
-
Процедуры/коэффициенты выбраны правильно
-
Назначение теста (высокие/низкие ставки) соответствует размеру показателей надежности
-
Приведено более одного коэффициента надежности
|
0
|
1
|
2
|
3
|
4
|
Резюме: Общая оценка исследований надежности теста (500-2500 знаков)
7 Валидность
7 Ключевой вопрос: Представлены ли доказательства валидности теста? Если ответ отрицательный, поставьте прочерк в листе рейтинга.
7.1
|
Содержательная валидность (если применимо)
| -
Приведено обоснование содержательной валидности теста (например, результаты экспертизы или теоретическое обоснование).
|
0
|
1
|
2
|
3
|
4
|
7.2
|
Исследование размерности теста
| -
Приведены результаты исследования размерности теста (например, методом факторного анализа). Результаты соответствуют заявленной размерности теста. Приведены результаты исследования размерности более, чем одним способом, например, в рамках как классической теории, так и других методов (IRT, структурное моделирование)
|
0
|
1
|
2
|
3
|
4
|
7.3
|
Тестологические свойства теста
| -
Задания теста имеют оптимальные показатели трудности и дискриминативности/дифференцирующей способности заданий.
-
Задания теста имеют удовлетворительные психометрические характеристики
-
Дистракторы функционируют правильно
-
Варианты теста параллельны (если применимо)
-
Тест имеет удовлетворительные показатели надежности
|
0
|
1
|
2
|
3
|
4
|
7.4
|
DIF анализ (анализ различного функционирования заданий по отношению к различным группам участников)
| -
Имеются доказательства инвариантности результатов тестирования по отношению к различным группам участников, в тесте отсутствует DIF
-
Проверены все релевантные для целей теста группы участников (например, по полу, месту жительства, родному языку и пр.)
|
0
|
1
|
2
|
3
|
4
|
7.5
|
Конвергентная и/или дискриминативная валидность12 (если применимо)
| -
Установлена релевантность выбранного для корреляции инструмента
-
Размер корреляции r при исследовании конвергентной валидности составляет 0,2-0,3 для психологических тестов (для выставления оценки, 2/«адекватно»)13, в тестах достижений и способностей требования к размеру коэффициента могут быть выше
-
Размер выборки составляет 100-200 человек (для оценки 2/«адекватно)14
-
При относительно невысоких значениях коэффициентов корреляции этим результатам имеется объяснение (особенности выборок или использованных инструментов и т.п.)
|
0
|
1
|
2
|
3
|
4
|
7.6
|
Критериальная валидность15
(текущая, прогностическая или ретроспективная валидность)
| -
Правильны ли процедуры, использованные при получении и обработке данных по критериальной валидности?
-
Соответствуют ли выборки, использованные при исследовании критериальной валидности, предполагаемому использованию теста?
-
Имеются доказательства того, что выбран релевантный критерий.
-
Интервалы допустимых значений коэффициента корреляции (в исследовании критериальной валидности) составляют16:
Тесты достижений (знаний), измеряющие относительно узкий конструкт или область конструкта, — 0,5-0,7
Тесты достижений и тесты способностей, измеряющие относительно широкий конструкт, — 0,4-0,6
Личностные тесты-опросники и кейс-тесты — 0,2-0,4
|
0
|
1
|
2
|
3
|
4
|
7.7
|
Как давно проводились исследования валидности
| -
Исследованиям валидности больше 15 лет – слишком давно
-
Исследованиям валидности меньше 15 лет -- допустимо
|
0
|
1
|
2
|
3
|
4
|
Резюме: Общая оценка адекватности исследований, упоминание других исследований валидности.
Достарыңызбен бөлісу: |