Контроль учебных достижений обучающихся как фактор внедрения кредитной системы обучения в условиях модернизации казахстанского общества



бет17/28
Дата03.03.2016
өлшемі1.15 Mb.
#35863
1   ...   13   14   15   16   17   18   19   20   ...   28

Методы оценки надежности тестов


Есть несколько методов оценки коэффициента надежности тестов. Эти методы отличаются один от другого одним главным положением: что рассматривать в качестве ошибочных компонентов в тесте? В соответствии с этим общая концепция надежности в каждом конкретном случае получает конкретное выражение.

Повторное тестирование. Один и тот же тест дается в одной той же группе испытуемых дважды, через некоторый промежуток времени. Результаты первого и второго тестирования коррелируются, полученный коэффициент указывает на надежность, в данном случае - на воспроизводимость результатов испытуемых. В качестве ошибочных компонентов здесь рассматривалось изменения в знаниях студентов (забывание, научение и т.д.) по истечении времени, влияющие на надежность (стабильность) результатов. Полученный методом повторного тестирования коэффициент надежности правильнее называть коэффициентом стабильности, или же коэффициентом устойчивости, воспроизводимости.

Тестирование параллельными формами. Большинство популярных педагогических тестов имеют параллельные формы. В них, по сути, выявляется одно и то же содержание, но вопросы внешне различаются. Для обоснования параллельности тестов, помимо смысловой и логической связи, вводится условие необходимости равенства их средних арифметических и дисперсий. Это же условие сохраняется для обоснования параллельности отдельных вопросов.

Студентам дается вначале одна форма теста, а через некоторое время - другая. Результаты коррелируются, полученный коэффициент указывает на стабильность в знаниях обучающихся. Полученные таким методами коэффициенты надежности, лучше называть коэффициентом стабильности и эквивалентности. Коли же вначале дается одна форма теста, а затем сразу же, без перерыва, вторая, то устраняя, таким образом, влияние ошибочных компонентов, связанных со стабильностью ответов испытуемых по истечения времени, в обеих формах получают информацию об эквивалентности заданий. Полученный коэффициент корреляции указывает на надежность параллельных форм теста, а точнее, на их эквивалентность; поэтому в этом случае коэффициент надежности лучше называть коэффициентом эквивалентности.



Раздельное коррелирование. Этот метод позволяет проверить надежность при однократном тестировании. Весь тест, состоящий из заданий или утверждений, делится пополам. Обычная при этом процедура: складываются результаты испытуемых отдельно в четных заданиях и в нечетных; полученные в половинах суммы коррелируются. Для того чтобы узнать, чему равняется коэффициент надежности теста в целом, полученное по двум половинкам значение коэффициента устанавливается посредством формулы Спирмана - Брауна:
rнтк = 2rк/(rк + 1) (13)
гяе rнтк ~ надежность теста в целом;

rк - надежность по двум половинам

Определение коэффициента внутренней состоятельности теста. Так как делить тест на две части можно разными способами (например, на четные и нечетные задания, на первую половину заданий и вторую и др.), то каждый раз получаются различные оценки коэффициента надежности. Чтобы уменьшить влияние способа разделения теста на надежность, предложен такой подход к оценке надежности, а именно: делить тест не на две половины, а на столько частей, сколько входит в него заданий, то есть так, чтобы в каждой части содержалось по одному заданию, которая обрабатывается по формуле:
rнт= k/(k - 1) [1 - ∑pigi/St2] (14)
где k - количество задании в тесте;

pigi - сумма дисперсий отдельных заданий.

Полученный коэффициент корреляции указывает на надежность теста в зависимости от надежности каждого отдельного задания, поэтому его лучше называть коэффициентом внутренней состоятельности теста.

Надежность теста тем выше, чем меньше дисперсия ошибочного компонента измерения и чем больше общая дисперсия. Следовательно, надежный тест лучше различает сильных и слабых обучающихся: их оценки должны быть более дифференцированными. Заметим, что существующая сейчас в практике система оценок в вузе и школе от двух баллов до пяти имеет главным недостатком именно малый размах и обладает соответственно низкой дифференцирующей способностью.

Другой причиной недостаточной величины надежности теста обычно является малое количество заданий. В теории тестов известны соотношения между числом эквивалентных заданий и надежностью. На этом основана другая формула Спирмана - Брауна, позволявшая оценить, как увеличится надежность теста при увеличении количества заданий в n раз:
r = nrнт /rнт[ (n - 1) +1] (15)
где r - увеличенная надежность удлиненного теста;

п - кратность увеличения количества заданий в тесте.

Перечислим способы повышения надежности теста:



  • - увеличение количества заданий различной трудности, и особенно средней трудности, таких, которые хорошо коррелировали бы с общей суммой баллов и некоторым образом между собой;

  • - увеличение размаха оценок, а, следовательно, и общей дисперсии теста;

  • - уменьшение ошибочного компонента, что достигается строгой стандартизацией процедуры тестирования, понятностью вопроса, единым уровнем мотивации ответов у студентов др.

Валидность. Существует несколько видов валидности тестов, из числа которых в педагогике наиболее важными являются два:

  • валидность по содержанию;

  • прогностическая валидность тестов.

Суть валидности тестов по содержанию заключена в понятии репрезентативности заданий теста по отношению к предмету, знание которого педагог намеревается проверить, а именно: охватывает ли содержание теста весь комплекс программных требований к знанию предмета; насколько отобранные задания (из множества возможных) пригодны для оценки знаний по конкретному предмету.

Таким образом, под валидностью понимается мера пригодности и обоснованности теста для измерения того, что им намереваются измерять. Процедура проверки тестов на соответствие этому критерию называется валидизацией.



Прогностическая валидность. Прогностическая валидность связана с понятием эффективности прогноза успешности ответов тех лиц, кого принимают в вуз (или на работу) с помощью того или иного теста. В программе отбора обычно предусматривается использование не одного, а набора тестов ("батареи"), после чего устанавливается вероятностный прогноз успешности ответа каждого абитуриента в избранной специальности. Если по истечении установленного срока прогноз подтверждается, то это означает, что применение тестов имеет практический смысл; они обладают прогностической валидностью.

Имеются различные методы валидизации тестов, среди которых чаще всего применяются методы, связанные вначале с нахождением критерия, а затем с коррелированием полученных результатов теста с критерием. Мерой валидности каждого теста служит коэффициент корреляции: валидность теста соответственно бывает тем выше, чем выше эта корреляция. Отсюда становится понятной важная роль нахождения таких критериев, по которой можно с большой уверенностью выносить обоснованные суждения относительно качества тестов. Критерием могут быть такие показатели, как: успешность в учебе (объем или быстрота научения), успешность в работе после окончания вуза и др.

При этом прогностическая валидность теста во многом зависит не только от надежности самого теста, но и от надежности критерия. В практике не всегда удается подобрать высоконадежный критерий, а так как тесты подбираются по критерию, то часто возникает вопрос: какой валидностью обладал бы тест, если бы надежность критерия была максимальной, равной единице? В таких случаях применяется так называемая коррекция на ненадежность. Цель коррекции - выяснить вопрос о том, какой теоретически могла бы оказаться валидность теста, если:

а) надежность теста равнялась единице;

б) надежность критерия равнялась единице;

в) надежность и теста и критерия равнялась единице.

Коррекция на ненадежность теста и критерия проводится по формулам:

для случая а) rквт = rвт/√rнт

для случая б) rквт = rвт/(√rнк

для случая в) rквт = rвт/(√rнл√ rнт)

Во всех формулах символы означают:

rквт - корректированная валидность теста;

rвт - валидность теста;

rнк. - надежность критерия;

rнт - надежность теста.

Условно - прогностическая валидность. В практике, для того чтобы коррелировать результаты тестов с итоговыми результатами (критерием) и получить коэффициенты прогностической валидности, часто бывает необходимо знать прогностическую валидность теста в момент исследования, не дожидаясь того времени, когда, например, курсант станет летчиком, а абитуриент медицинского вуза - терапевтом. Поэтому часто прибегают к следующему приему. Тесты, предназначенные для отбора абитуриентов, вначале даются группе лиц, уже закончивших вуз по данной специальности. Далее результаты коррелируются с оценками их производственной деятельности, оценками руководителей, показателями достижений. Только те тесты, которые имеют значимые корреляции, попадают в предварительную «батарею» тестов, применяемых затем при отборе абитуриентов соответствующего профиля. По итогам расчетов результатов обработки данных, делается прогноз об условной вероятности успеха в обучении для поступающих. Реальность предположения подтверждается по истечении срока обучения тех, кого набирали с помощью тестов, имеющих условно - прогностическую валидность. Если подтверждается эффективность теста, то приставка «условно» снимается и считается, что тест действительно обладает прогностической ценностью. Процедура перепроверки подтверждения и коррекции валидности теста («валидизация»), обычно проводится несколько раз, в нескольких группах, с целью получения устойчивых (генерализованных) показателей.

Одним из наиболее распространенных эмпирических способов валидизации тестов является так называемый метод известных, или контрастных, групп, суть которого поясним на примере. Если, скажем, нужно валидизировать тест для выявления интересов к техническому творчеству, то подбираются две группы лиц (N≥30, но не более 100), известных, по заключению специалистов, как группы тех, кто: активно занимается в технических кружках и имеет успехи; не интересуется и не занимается техникой.

Затем возникает задача подобрать такие вопросы, чтобы группы в своих ответах по возможности четко различались. Если на какое - либо утверждение ответы в обеих известных группах статистически достоверно различаются (одни говорят "верно", другие"неверно"), то это означает, что вопрос рассекает эти группы, он отделяет лиц одной группы от лиц другой. Весь тест составляется из отобранных таким образом заданий (обычно более тридцати).

Существуют тесты, имевшие высокую прогностическую валидность, но состоящие из большого количества заданий (длинный тест) и, следовательно, неудобные в практической работе в связи с большой затратой времени. Возникает задача: нельзя ли иметь короткий тест, который бы обладал сравнительно меньшей, но достаточно высокой прогностической валидностью, какой обладает длинный тест? Для решения этой задачи применяется либо часть длинного теста, либо конструируется заново короткий тест. Затем результаты короткого теста коррелируются с результатами длинного теста, и если полученные коэффициенты оказываются удовлетворительными, то принимается, что короткий тест имеет прогностическую валидность по отношению к длинному тесту.

Имеется валидный тест, но пригодный только для индивидуального опроса, и есть необходимость создать тест, который можно было бы применять в группе. Если окажется, что групповой тест столь же эффективен, как и индивидуальный, то считается, что групповой тест обладает прогностической валидностью, то нет смысла, в дальнейшем, пользоваться его индивидуальной формой.

Имеется также валидный тест, но связанный с необходимостью применения дорогостоящей аппаратуры, специального оборудования и др. В таком случае появляется необходимость предложить такой тест, который был бы валидным, но в то же время не требовал больших расходов. Если удается сконструировать тест, валидно измеряющий без применения технических средств то же, что и дорогостоящий тест, то такой тест также обладает прогностической валидностью.





    1. Достарыңызбен бөлісу:
1   ...   13   14   15   16   17   18   19   20   ...   28




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет