Попытки ввести стандарты тестирования в области образования и психологии в России производились несколько раз.
Согласно приказу Министерства образования Российской Федерации
от 17 апреля 2000 г. № 1122 «О сертификации качества педагогических тестовых материалов», функция головного учреждения в системе Минобразования России по сертификации качества педагогических тестовых материалов, используемых для оценки знаний студентов высших и средних специальных учебных заведений, была возложена на Исследовательский центр проблем качества подготовки специалистов Московского государственного института стали и сплавов (технологического университета). А сертификация качества педагогических тестовых материалов, используемых для оценки знаний обучающихся во всех типах общеобразовательных учреждений и учреждениях начального профессионального образования, была передана Институту общего среднего образования Российской академии образования.
4 июля 2008 года РПО (Российское психологическое общество) опубликовало постановление, касающееся распространения и использования психодиагностических методик. Согласно ему, методики, выкладываемые в открытом доступе, считаются лишенными профессионального статуса «поскольку это ведет к несанкционированному и непрофессиональному использованию методик, приводит к неадекватным результатам (в связи с рассекречиванием методик для потенциальных испытуемых), нарушает права человека, может нанести вред здоровью и психическому благополучию обследуемых», а проведение методик предполагается ограничить кругом прошедших регистрацию профессионалов. 28 июля 2008 в РПО было принято «Положение о системе добровольной сертификации психодиагностических методик».
Для «регистрации профессионалов» в сентябре 2009 г. РПО зарегистрировало в Минюсте «Национальный институт сертификации профессиональных психологов». При нем аккредитован созданный на базе факультета психологии Южно-Уральского университета НОЦ «Психодиагностика» (директор Н.А. Батурин). Результатом работы НОЦ стала публикация в 2010 г. «Ежегодника профессиональных рецензий психодиагностических методик» под редакцией проф. Эйдмана и проф. Батурина. В сборнике содержатся рецензии 40 экспертов на 20 российских методик. Сборник организован по аналогии с «Ежегодниками психических измерений Буроса» (структуру рецензии из российского ежегодника можно посмотреть на сайте http://www.yearbook.psytest.ru/ru/proc/Shema_professionalnyh_recenzi_psihodiagnosticheskih_i_issledovatelskih_metodik). Другие материалы, выложенные на сайте НОЦ, (например, каталог экспертов, в котором указывается область профессиональных интересов, либо дается пометка «универсальный эксперт»), тоже организованы с ориентиром на практику Центра тестирования Буроса. Экспертиза тестовой методики в НОЦ (эта услуга называется «Оценка соответствия психодиагностической методики требованиям Системы добровольной сертификации в области психодиагностики») стоит 10.000 руб. Других ежегодников после 2010 года не выходило.
3.Теоретическая часть
Международная практика показывает, что в странах, где еще нет собственной системы экспертизы тестов, встает вопрос о подходах к ее созданию: это может быть разработка своей модели или заимствование одной из готовых международных. Оказывается, что несмотря на большое количество существующих моделей простого заимствования одной из них недостаточно – при этом возникают те же сложности, что и при адаптации переводного теста: в существующих системах кроме объективных научных требований содержится и национальная специфика (см. выше выводы Эверса). Например, в американских моделях отражены нормы законов о тестировании, в немецкой модели учтены характерные для Германии взаимоотношения надзирающих органов, в голландской модели очевидна длительная и сильная традиция тестирования в стране (а в бразильской модели учтен тот факт, что их традиция тестирования сильно отстает от голландской) и пр. Европейская модель, хотя и носит название международной, тоже вобрала в себя особенности систем, на основе которых была разработана (свойственную немецкой и английской системе подробную категоризацию теста, немецкую систему чек-листов, голландский подход к оценке собственно качеств теста). Таким образом, кроме оценки качеств инструмента в европейской модели содержится условно-нужная функция категоризации теста и отсутствуют вопросы о процедурах администрирования и информационной безопасности, актуальные для России.
3.1 Специфика разрабатываемой модели
К особенностям российской ситуации с тестированием можно отнести отсутствие традиции тестирования, повлекшее следующие факторы:
-
Отсутствие у профессионалов (педагогов, психологов-практиков, работников отделов кадров) базовых знаний по психометрике и понимания, как отличить качественный инструмент от некачественного.
-
Использование в практике работы (в том числе в ситуациях высоких ставок) инструментов с неизвестными или неудовлетворительными психометрическими свойствами. Неумение интерпретировать результаты исследований по надежности и валидности.
-
Отсутствие у тестов документации (руководство пользователя и техническое руководство, либо недостаточность их содержания.
-
Ненадлежащая практика администрирования тестов (отсутствие стандартизации условий проведения, недостаточная защищенность баз данных, отсутствие подготовки профессионалов-администраторов теста).
-
Отсутствие доверия как у населения, так и у многих практиков к валидности и легитимности результатов.
В связи с этим можно предположить, что российскую модель экспертизы инструментов оценивания должны отличать следующие особенности:
-
Более мягкие требования к показателям надежности и валидности, кроме тестов высоких ставок (ближе к бразильской модели, чем к голландской или европейской).
-
Ориентация модели экспертизы тестов не только на экспертов, но и на разработчиков (как стандарты ETS).
-
Наличие раздела, посвященного оценке разработке инструмента с вопросами обосновать выбор модели (если тест создавался в рамках IRT), о выравнивании результатов, доказательствах эквивалентности форм и вариантов и т.п. То есть, оценка исследований, которая не проводится в голландской или европейской моделях.
-
Требования наличия руководства пользователя с подробным описанием процедур администрирования, подсчета баллов, интерпретации результатов.
-
Максимальная публичность и открытость стандартов, доступ к ним в сети Интернет, понятность изложения и обоснованность требований-критериев.
-
Ссылки на отечественных экспертов (в части теории).
Чтобы всесторонне адаптировать систему оценивания тестов, можно воспользоваться также междисциплинарным подходом, а конкретнее, использовать для разработки критериев оценивания качества измерительного инструмента семиотическую модель Гюнтера Кресса и Тео ван Люэна. Семиотическая модель Кресса-Ван Люэна была разработана для анализа любой информационной целостности и состоит из четырех категорий:
-
Дискурс (Discource)
-
Дизайн (Design)
-
Производство (Production)
-
Распространение (Distribution).
Таким образом, анализ теста (типичного мультимодального объекта) будет строиться по четырем направлениям:
1. Дискурс – показывает место инструмента среди аналогов.
2. Дизайн – это качество собственно инструмента, его нормы, надежность, валидность, справедливость, обоснованность выбора шкал ит.п.
3. Производство – это материальная реализация теста, качество тестовых материалов для бланкового и компьютерного (если предусмотрено) тестирования, качество составления мануалов (технического и для пользователя), и
4. Распространение – это анализ предусмотренных для проведения процедур теста (информационная безопасность, процедуры администрирования, способы сообщения результатов тестирования).
«Дизайн» и до некоторой степени «Производство» тестов оценивается во всех моделях оценивания, поскольку эти части охватывают требования собственно к методам и процедурам разработки теста и исследованиям его качества (Дизайн) и к материальной реализации материалов (верстка бланков, качество печати или интерфейса программы тестирования и т.п. – речь идет не столько о содержании, сколько об «информационном дизайне» и внешнем виде/эстетике/соответствии нормативам). Оценить «Распространение» теста в рамках экспертизы документов, без наблюдения за администрированием инструмента, практически невозможно. Требования к стандартам проведения тестирования не входят в международные модели оценивания, они изложены в отдельном документе Международной тестовой комиссии, который можно считать скорее этическими рекомендациями, чем строгими стандартами. Однако с целью предусмотреть стандартизацию процедур проведения тестирования, разработчики могут включать в руководство пользователей подробные описания процедур тестирования. Наличие подобных описаний и может быть оценено в модели. Наконец, раздел «Дискурс» позволяет посмотреть на тестирование как на деятельность, в значительной степени зависящую от сферы применения инструмента. У трех экспертов с сопоставимым опытом работы в области разработки/использования тестов, но занятых, соответственно, в сфере оценки персонала, клинической психологии или международных исследований достижений учащихся, требования к тестам и представления о тестологии будут различаться. Требования к свойствам инструментов должны варьироваться в зависимости от сферы и контекста тестирования. В данной работе рассматривается создание модели для оценки образовательных и личностных тестов (насколько они могут быть связаны с образовательными задачами).
Достарыңызбен бөлісу: |