Инструкция для эксперта и модель экспертизы тестов Приложение 3 Лист рейтинга по результатам экспертизы теста



бет13/15
Дата16.07.2016
өлшемі0.52 Mb.
#203078
түріИнструкция
1   ...   7   8   9   10   11   12   13   14   15

6. Надежность


6 Ключевой вопрос: Имеется ли информация о надежности теста? Если ответ отрицательный, переходите к п. 7.1


6.1

Процедуры вычисления коэффициентов надежности

  • Дано подробное описание процедур вычисления надежности теста, позволяющее проследить, какие коэффициенты использовались и как они были получены




0

1

2

3

4

6.2

Состав выборки для определения надежности теста

  • Дано описание составления выборки, и она по своему составу релевантна цели тестирования.

  • Из описания удается можно сделать вывод, могут ли ее особенности повлиять на размер коэффициента надежности в сторону завышения или занижения (например, гомогенность выборки и т.д.)

0

1

2

3

4

6.3

Размер выборки8


Методы классической теории тестирования (Внутренняя согласованность / Ретестовая надежность / Эквивалентные и взаимозаменяемые формы)


  • Нет информации — 0

  • Размер выборки менее 100 человек — 1

  • Размер выборки 100-200 человек — 2

  • Размер выборки более 200 человек — 3

  • Несколько исследований надежности с размерами выборки в каждом более 200 человек — 4


Методы IRT9

В зависимости от модели IRT адекватной (оценка — 2) будет выборка с минимальным объемом



  • 200 человек для однопараметрической модели

  • 400 человек для двухпараметрической модели,

  • 700 человек для трехпараметрической модели ( (справедливо и для дихотомических моделей, и для политомических моделей).




0

1

2

3

4

6.4

Размеры коэффициентов надежности



Методы классической теории тестирования10


  • Для тестов, по результатам которых принимают важные решения (например, отбор сотрудников, получение места в образовательной программе и т.п.)

  • r < 0,80 неадекватно; 0,80 ≤ r < 0,90 адекватно; r ≥0,90 хорошо.

  • Для тестов, предназначенных для принятия менее важных решений на индивидуальном уровне (например, оценка результатов обучения ит.п.) r < 0,70 неадекватно; 0,70 ≤ r < 0,80 адекватно; r ≥ 0,80 хорошо.

  • Для тестов, предназначенных для исследованиях на групповом уровне: r < 0,60 неадекватно; 0,60 ≤ r < 0,70 адекватно; r ≥ 0,70 хорошо.


Методы IRT (separation reliability) 11

  • Нет информации — 0

  • Неадекватно (r < 0.70; information < 3.33) — 1

  • Адекватно (0.70 ≤ r < 0.80; 3.33 ≤ information < 5.00) — 2

  • Хорошая (0.80 ≤ r < 0.90; 5.00 ≤ information < 10.00) — 3

  • Отличная (r ≥ 0.90; information ≥ 10.00) — 4




0

1

2

3

4

6.5

Общая адекватность оценки надежности

  • Можно ли обоснованно судить о надежности теста на основании предоставленной информации?

  • Процедуры/коэффициенты выбраны правильно

  • Назначение теста (высокие/низкие ставки) соответствует размеру показателей надежности

  • Приведено более одного коэффициента надежности

0

1

2

3

4


Резюме: Общая оценка исследований надежности теста (500-2500 знаков)

7 Валидность


7 Ключевой вопрос: Представлены ли доказательства валидности теста? Если ответ отрицательный, поставьте прочерк в листе рейтинга.

7.1

Содержательная валидность (если применимо)

  • Приведено обоснование содержательной валидности теста (например, результаты экспертизы или теоретическое обоснование).




0

1

2

3

4

7.2

Исследование размерности теста

  • Приведены результаты исследования размерности теста (например, методом факторного анализа). Результаты соответствуют заявленной размерности теста. Приведены результаты исследования размерности более, чем одним способом, например, в рамках как классической теории, так и других методов (IRT, структурное моделирование)

0

1

2

3

4

7.3

Тестологические свойства теста


  • Задания теста имеют оптимальные показатели трудности и дискриминативности/дифференцирующей способности заданий.

  • Задания теста имеют удовлетворительные психометрические характеристики

  • Дистракторы функционируют правильно

  • Варианты теста параллельны (если применимо)

  • Тест имеет удовлетворительные показатели надежности

0

1

2

3

4

7.4

DIF анализ (анализ различного функционирования заданий по отношению к различным группам участников)


  • Имеются доказательства инвариантности результатов тестирования по отношению к различным группам участников, в тесте отсутствует DIF

  • Проверены все релевантные для целей теста группы участников (например, по полу, месту жительства, родному языку и пр.)

0

1

2

3

4

7.5

Конвергентная и/или дискриминативная валидность12 (если применимо)

  • Установлена релевантность выбранного для корреляции инструмента

  • Размер корреляции r при исследовании конвергентной валидности составляет 0,2-0,3 для психологических тестов (для выставления оценки, 2/«адекватно»)13, в тестах достижений и способностей требования к размеру коэффициента могут быть выше

  • Размер выборки составляет 100-200 человек (для оценки 2/«адекватно)14

  • При относительно невысоких значениях коэффициентов корреляции этим результатам имеется объяснение (особенности выборок или использованных инструментов и т.п.)

0

1

2

3

4

7.6

Критериальная валидность15

(текущая, прогностическая или ретроспективная валидность)



  • Правильны ли процедуры, использованные при получении и обработке данных по критериальной валидности?

  • Соответствуют ли выборки, использованные при исследовании критериальной валидности, предполагаемому использованию теста?

  • Имеются доказательства того, что выбран релевантный критерий.

  • Интервалы допустимых значений коэффициента корреляции (в исследовании критериальной валидности) составляют16:

Тесты достижений (знаний), измеряющие относительно узкий конструкт или область конструкта, — 0,5-0,7

Тесты достижений и тесты способностей, измеряющие относительно широкий конструкт, — 0,4-0,6

Личностные тесты-опросники и кейс-тесты — 0,2-0,4


0

1

2

3

4

7.7

Как давно проводились исследования валидности


  • Исследованиям валидности больше 15 лет – слишком давно

  • Исследованиям валидности меньше 15 лет -- допустимо

0

1

2

3

4

Резюме: Общая оценка адекватности исследований, упоминание других исследований валидности.




Достарыңызбен бөлісу:
1   ...   7   8   9   10   11   12   13   14   15




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет