Контроль учебных достижений обучающихся как фактор внедрения кредитной системы обучения в условиях модернизации казахстанского общества



бет18/28
Дата03.03.2016
өлшемі1.15 Mb.
#35863
1   ...   14   15   16   17   18   19   20   21   ...   28

Вопросы конструирования тестов


Нормы. Нормы необходимы к каждому тесту. Норма - весьма относительное понятие. Один и тот же тест дает различные результаты, если он применяется в различных группах, следовательно, различными окажутся и нормы. Интерпретация результатов в соответствии с нормами позволяет более выпукло представить важный вопрос относительности почти всех педагогических измерений; достижения каждого человека сравниваются с достижениями других и на этой основе делаются дальнейшие суждения.

К нормам предъявляются определенные требования. Норма должна быть:



  • - дифференцированной, что означает, что нет смысла давать единую норму для студентов разных курсов и разных специализаций. Работа по выработке дифференцированных норм очень трудоемка, но вместе с тем необходима.

  • - репрезентативной. Чтобы получить норму, нужно организовать случайную выборку из всего количества лиц, для которых норма разрабатывается. Это делается потому, что нецелесообразно измерять генеральную совокупность для получения несмещенных нормативных оценок. В соответствии с требованиями репрезентативности производится расчет выборки и процедура организации выборочного исследования.

  • - соответственной. Нормы, разработанные ранее, могут оказаться устарелыми и не соответствующими реальным требованиям, новой программе и др.

В зависимости от особенностей процесса измерения, числа испытуемых, особенностей выборки, размаха результатов, надежность и валидность одного и того же теста меняются. Отсюда следует - и это надо подчеркнуть, - что тест не имеет единой, раз и навсегда установленной надежности и валидности. В каждом отдельном исследовании тест следует заново подвергать проверке и, лишь, затем решать вопрос о возможности их использования в дальнейшей работе.

Соответственно с этим нет единых, твердо установленных требований к границам надежности и валидности тестов. Можно только отметить, что требования к надежности предъявляются более высокие, чем к валидности (табл.). Это объясняется тем, что надежность инструмента является основой для любого измерения; работа с ненадежным тестом приносит скорее вред, чем пользу, потому что создает видимость меры там, где ее нет. С валидностью дело обстоит иначе. Успешность в любом виде требует, как правило, знаний не в одной, а в нескольких различных областях. Поэтому трудно предполагать, что тест для измерения знаний по одному предмету, даже профилирующему, будет обладать высокой прогностической валидностью при приеме в учебное заведение.

Одним тестом отбирать хороших студентов трудно, да и не нужно, потому что вероятность правильного предсказания оказывается недостаточной. Другое дело, когда применяется несколько валидных тестов: если они к тому же коррелируют между собой, то точность в прогнозировании успешности резко увеличивается (табл. 3.6).

Тест может иметь отличную надежность и в то же время быть совсем неудовлетворительным по валидности. Интерпретировать это обстоятельства можно, примерно, так: тест представляет собой довольно точный инструмент, но этот инструмент не годится для изучения того, что им пытаются изучать. Здесь может сказаться полезной аналогия с ходом точных (надежных) часов, но поставленных на неизвестное время - вперед или назад – и, отсюда невалидность для выяснения вопроса: который сейчас час?



С другой стороны, если тест валидный, то одно это уже предполагает надежность теста, так как он не может быть более валидным, чем надежным. Таким образом, коэффициент валидности является самой нижней границей возможной надежности теста.
Таблица 3.6

Коэф - фициент корреляции теста

Надежность

Прогности - ческая валидность

Валидность педагогических тестов (по содержанию)

0,90 - 0,99

Отличная

Отличная

Отличная

0,85 - 0,89

Очень хорошая





0,80 - 0,84

Хорошая





0,75 - 0,78

Удовлетвори - тельная



Очень хорошая

0,70 - 0,74

Малоудовлетво - рительная



Хорошая

0,60 - 0.69

Сомнительная

Отличная

Удовлетвори - тельная

0,50 - 0,59

Неудовлетвори - тельная

Очень хорошая

Малоудовлетво - рительная

0,40 - 0,49

Совсем неудовлетвори - тельная

Хорошая

Сомнительная

0,30 - 0,39

То же

Удовлетворительная

Неудовлетвори - тельная




Продолжение Таблицы 3.6.

Коэф - фициент корреляции теста

Надежность

Прогности - ческая валидность

Валидность педагогических тестов (по содержанию)

0,20 и ниже

То же

Малоудовлетворительная

Совсем неудовлетвори - тельная


Трудность теста. О трудности теста можно судить по характеру распределения результатов испытуемых. Рис. указывает на асимметричное распределение данных, если группе дается трудный тест. Из рис. I видно, что малые значения индивидуальных баллов Хi в трудном тесте встречаются гораздо чаще, чем по трудности средние и особенно высокие. При этом заметим, что трудный тест хорошо выявляет сильных студентов, и плохо слабых. Асимметричное распределение вызывает определенные неудобства при использовании статистического аппарата, где большинство методов применяется исходя из условия нормального распределения Гаусса.


Рис. 1 Рис.2


Рис.2 показывает распределение результатов испытуемых той же группы в том случае, когда ей давался сравнительно легкий тест. Здесь тоже имеет место асимметричное распределение, но в другую сторону: высоких значений индивидуальных баллов больше, чем низких и средних; легкий тест хуже различает сильных и хорошо выявляет самых слабых студентов. Уровень трудности каждого теста зависит от трудности заданий, его составляющих.

Мерой трудности задания является доля правильных ответов р. Например, если из ста студентов только половина выбрала правильный ответ, то р = 0,50. Соответственно, чем сложнее задание, тем меньше величина р , но больше вероятность того, что студенты, не знающие правильного решения, начинают выбирать ответ наугад. С учетом этого, был рассчитан следующий оптимальный уровень трудности заданий, которого следует придерживаться при создании тестов (табл.3.7).

Если не контролировать число легких и трудных заданий, то возникает так называемая проблема сбалансированности теста по трудности, суть которой в том, что обычно в тесте должно быть больше заданий средней трудности и меньше совсем легких и трудных.

В процессе конструирования теста мера трудности регулярно проверяется на случайной выборке испытуемых из того контингента, для которого тест предназначается. В сбалансированном тесте авторы обычно легко добиваются нормальности распределения результатов.
Таблица 3.7 Динамика соотношения трудности тестовых заданий и доли скорректированных на догадку ответов (р)

Количество альтернатив в тестовых заданиях

Доля правильных ответов

скорректированных на догадку

некорректированных на догадку

2

0,70

0,85

3

0,65

0,77

4

0,65

0,74

5

0,61

0,69

Дальнейшее совершенствование теста идет по пути замены тех заданий, ответы на которые нарушают нормальность распределения.



Длина теста. При конструировании теста большое внимание следует уделять длине теста; под длиной теста понимается количество входящих в него заданий. Различная длина теста сказывается на надежности и валидности. Существуют тесты очень короткие, состоящие из 7 - 15 заданий, и длинные, состоящие из нескольких сотен заданий. Когда тест очень длинный, снижается мотивация, ухудшается внимание у испытуемых, а все это снижает надежность. С точки зрения теории, чем тест длиннее, тем он надежнее. Возникающее противоречие между теорией и практикой решается компромиссом в ту или другую сторону в зависимости от конкретного случая, задачи и опыта автора теста.

Часто ставится вопрос: во сколько раз нужно увеличить тест, чтобы получить заданную надежность? Например: имеем надежность короткого теста, равную 0,807; во сколько раз надо удлинить тест, чтобы получить надежность r , равную 0,900? В таких случаях применяется другой вариант формулы (11):


n = [rж(1 - rк)]/[ rк(1 - rж)] (16))
где n - число, указывающее во сколько раз надо удлинить тест;

rж - желаемая надежность теста;

rк - фактическая надежность в коротком тесте.

Подставляя цифровые данные, получаем n~ 2.

При прочих равных условиях, чтобы иметь коэффициент надежности r = 0,900, тест должен удлиниться в два раза. Применение формулы (16) основано на некоторых теоретических допущениях, среди которых выделим главное: при удлинении теста можно добавлять только параллельные задания. Так как на практике это условие не выполняется, то величины, полученные с помощью этих формул, надо скорее рассматривать не как точное значение коэффициента надежности, а как его примерную оценку.



  1. Достарыңызбен бөлісу:
1   ...   14   15   16   17   18   19   20   21   ...   28




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет