Текст книги "Тестовый контроль в образовании"
Автор книги: Надежда Ефремова
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 14 (всего у книги 28 страниц)
где: tσ – коэффициент, значение которого выбирается так, чтобы возможность получения высших баллов была регламентирована; σ – среднее квадратичное отклонение подготовленности испытуемых нормативной выборки относительно среднего значения параметра θс.в; θi – уровень подготовленности испытуемого [134].
Так, например, при коэффициенте 2,5 вероятность получить 100 баллов составляет около 0,01, а при коэффициенте, равном 3, – не более 0,003. Уровень подготовленности каждого участника тестирования и трудность всех заданий теста оцениваются сначала на логистической шкале в интервале от–5 до +5 логитов.
Начало шкалы логитов «закрепляется» репрезентативной выборкой из 1000 испытуемых, адекватно отражающих структуру генеральной выборки участников тестирования (по регионам, видам образовательных учреждений, городских – сельских и др.). После этого значения оценок в логитах и их средние квадратичные ошибки преобразуются (без деформации метрики) в 100–балльную шкалу для выдачи результатов учащимся и использования в образовательной статистике. Таким образом, сертификационный, или окончательный, тестовый балл является следствием учета не только качества верно выполненных заданий, но и характеристик трудности этих заданий, их дифференцирующей силы (способности к дискриминации уровня подготовленности). При пересчете на тестовые баллы с учетом трудности выполненных заданий следует учитывать, что:
• невыполнение данного задания по–разному сказывается на изменении сертификационного балла в зависимости от выполнения остальных заданий;
• верное выполнение одного и того же задания теста по–разному сказывается на росте сертификационного балла в зависимости от качеств остальных выполненных заданий;
• труднее улучшить высокий результат, чем средний и, тем более, низкий (как в спорте: чем выше планка, тем труднее повышение результата).
Такой балл имеет основные черты количественной меры, а поэтому позволяет проводить объективное сопоставление результатов, производить математико–статистический анализ, изучать динамику различных образовательных процессов в одних и тех же единицах измерения уровня подготовки учащихся и трудности заданий тестов. Кроме сертификационного балла участникам тестирования может быть присвоен рейтинг, указывающий на процент учащихся, получивших более низкий балл, чем у данного испытуемого. Это позволяет выпускникам оценивать свою конкурентоспособность при поступлении в вузы и участии в конкурсе. Сегодня можно с заранее заданной точностью оценить уровень учебных достижений каждого ученика, класса, школы, района, города, региона, страны с одинаковым подходом к требованиям оценивания результатов учебной деятельности.
Все это влечет за собой ряд существенных преобразований при определении результатов обучения, в частности перевода «сырыж» баллов в шкалу перцентильных рангов и др. [76]. Появляются сопоставимость и возможность сравнения результатов, полученных испытуемыми при выполнении тестов.
Понятно, что шкала тем лучше (т.е. тем достовернее), чем она надежнее. Один из способов сделать шкалу более достоверной – просто добавить в нее новые позиции. Однако на практике количество позиций на шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограниченно и т.д.). Для построения надежной шкалы необходима последовательность нескольких действий.
1. Написать вопросы – исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают контролируемое содержание. Теоретически следует выбирать вопросы, связанные с заданной концепцией измерений. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты и опросники для того, чтобы получить максимально полное представление о концепции.
2. Провести апробацию заданий на начальной выборке типичных респондентов и проанализировать результаты по каждому пункту для построения надежной шкалы и выявления уровня трудности заданий теста. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет (или 1/0) – дихотомическая оценка. Надежная шкала состоит из вопросов (позиций), которые пропорционально разделяют ее на интервалы, их называют калиброванными заданиями, т.е. заданиями с известным уровнем трудности.
3. Из первоначального теста удалить все вопросы, дающие значительные отклонения. После удаления всех вопросов, которые не согласуются со шкалой, можно остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежна шкала).
4. Вернуться к первому действию. На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к их окончательному набору, образующему надежную шкалу.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее неустойчивостью, в том случае, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета [201].
В качестве таких шагов при конструировании шкалы зарубежные исследователи предлагают:
• получить репрезентативную выборку для вычисления устойчивых оценок уровня подготовки испытуемых с известными стандартными ошибками измерения;
• предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;
• определить средний балл для каждой подгруппы, шкалировать результаты;
• интерполировать шкалированные результаты между соседними средними для тех «сырых» баллов, которые не наблюдались в выборке;
• экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты «сырых» баллов в различных возрастных подгруппах или с учетом определенного периода обучения.
Информатизация процедур тестирования, обработки и проверки результатов привела к созданию статистических отчетов, позволяющих оперативно получать на единой шкале оценок показатели учебных достижений по различным выборкам.
3.6. Обоснование структуры контрольных измерительных материалов и подходов к шкалированию результатов
Наиболее важная сфера создания теста связана с оценкой его содержательной валидности. В отличие от отбора содержания традиционных средств контроля, который в основном производится интуитивно на основании практического опыта педагога, отбор содержания теста как контрольного измерительного инструмента имеет четкую целевую направленность и при условии правильной постановки целей является серьезной заявкой на его высокое качество. Научно обоснованное планирование содержания является важнейшей предпосылкой достижения высокой валидности тестов как контрольных измерительных материалов. При этом процесс валидизации содержания включает три основных компонента: целеполагание, планирование содержания, оценку содержательной валидности экспертными и статистическими методами.
Планирование теста начинается с целеполагания, которым результаты обучения сопрягаются с целями учебного процесса, представленными в различных таксономических системах. Образно говоря, при создании теста в сознании разработчика содержание контроля преломляется через поставленные цели измерения, и если они сформулированы правильно, то есть уверенность в высокой содержательной валидности теста [197].
Этап целеполагания при создании валидного теста является наиболее трудным, так как от него в первую очередь зависит качество содержания теста. В процессе целеполагания решается вопрос о том, какие результаты испытуемых следует оценивать с помощью теста. При всей его кажущейся простоте на деле это зачастую оборачивается низким качеством результатов контроля и неправильными выводами о достижении целей обучения. В сложившейся практике при формулировании образовательных целей имеют место излишняя общность, расплывчатость, многообразие и неопределенность, в то время как для создания средств измерения в первую очередь необходима предварительная операцио–нализация целей.
По мнению М.В. Кларина, операционализация должна начинаться с описания направленности контроля и планируемых результатов воздействия на ученика, прояснения характера воздействия и детализации его результатов [92]. В этой связи он выделяет ряд вопросов, решение которых с необходимостью сопутствует процессу операционализации или конкретизации как выявлению образовательных условий, создаваемых для реализации целей; латентных параметров учащихся и их способностей к усвоению нового учебного материала; качества образовательного процесса. Процесс операционализации заключается в придании содержанию целей характеристик, позволяющих отобразить цели в стандартизованных средствах измерения как по содержанию, так и по форме. В соответствии с поставленными целями каждое задание теста предназначено для проверки у испытуемых уровня владения определенными знаниями, умениями или навыками. Для конкретизации учебных целей Кларин рекомендует использовать глаголы: анализировать, вычислять, высказывать, демонстрировать, знать, интерпретировать, использовать, оценивать, понимать, преобразовывать, применять, создавать и др., а целей творческого типа – варьировать, видоизменять, модифицировать, перегруппировать, перестроить, предсказать, поставить (вопрос), синтезировать, систематизировать. Для обозначения целей в области развития устной и письменной речи – выделить, выразить (в словесной форме), записать, обозначить, подчеркнуть (не в буквальном смысле), продекламировать, произнести, прочитать, разделить (на составные части), рассказать.
После определения целей тестирования и их конкретизации разрабатываются план и спецификация теста. При разработке плана делается примерная раскладка процентного соотношения содержания разделов и определяется необходимое число заданий по каждому разделу дисциплины исходя из важности раздела и числа часов, отведенных на его изучение в программе. Раскладку начинают с подсчета планируемого исходного числа заданий в тесте, которое затем будет неоднократно меняться в процессе работы над тестом в сторону увеличения или уменьшения. Обычно предельное число не превышает 60 заданий. Определение планируемого распределения оценок трудности заданий теста проводится на основе выделения ряда критериев.
К примеру, для аттестационн^гх тестов ЕГЭ необходимо наличие:
• не менее 40% легких заданий, трудность которых обеспечивает 80—90% их выполнения, допускается невысокая дифференцирующая способность;
• 20% заданий с высокой дифференцирующей способностью вблизи критериального балла (по 10% с каждой стороны), предназначенного для отсева неаттестованных выпускников, а точки сгущения трудности заданий сосредоточены вблизи критериального балла;
• 60% трудных заданий с высокой дифференцирующей способностью для обеспечения требования нормального распределения оценок на оси измерения для абитуриентов.
В контрольных измерительных материалах ЕГЭ для дифференциации подготовленности и отбора абитуриентов большой удельный вес в оценке имеют задания части «С», или повышенного уровня со свободным конструированием развернутого ответа; их, как правило, не включают в аттестационную часть теста, так как для аттестации достаточно части «А» с выбором ответа из числа предложенных (закрытые задания) и «В» со свободным ответом. Повышение достоверности решений по отбору абитуриентов в вузы по профилирующим дисциплинам связывается именно с результатами выполнения части «С».
Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:
• выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;
• выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;
• анализ расположения точек локализации заданий вдоль оси трудности;
• определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.
Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.
К числу направлений совершенствования КИМ можно отнести:
• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;
• проведение исследований по стабилизации критериального балла;
• разработку методики анализа устойчивости шкалы;
• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;
• усиление связи шкалирования и оценивания с содержанием образования;
• выделение уровней учебных достижений для оценивания на пятибалльной шкале.
Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:
• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;
• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;
• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.
Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.
Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].
Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:
• сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число S ;
• расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.
Методика построения компромиссных оценок основана на условиях:
• нет никакой априорной информации об экспертах;
• невозможно провести абсолютную экспертизу качества работы каждого эксперта;
• вся информация представляет собой набор работ, оцененных двумя, редко тремя экспертами.
В этом случае определение влияния экспертов на оценку проводится на основе анализа всевозможных парных сравнений с учетом следующих принципов:
• если эксперт серьезно завышает оценку в сравнении с другими экспертами либо серьезно занижает, то такая оценка учитывается меньше;
• если эксперт проявляет несогласованность с действиями других экспертов в достаточно большом числе работ, занижает оценку в сравнении с более строгими (менее лояльными) экспертами или завышает в сравнении с более мягкими (более лояльными), то его оценки также учитываются меньше;
• «веса» экспертов имеют смысл только внутри оцениваемой выборки.
Для определения «веса» экспертов строится квадратная матрица, элементы которой определяются по формуле:
где si, sj – сумма баллов по всем заданиям части «С» по всем работам, совместно проверенным i-м и j – м экспертами; C max – максимально возможная суммарная оценка за эти задания.
Коэффициент лояльности отражает сравнительную с другими экспертами лояльность i–го эксперта. Построчные суммы этой матрицы делятся на общее число работ, проверенных каждым экспертом, тогда формула вычисления коэффициента лояльности имеет вид
где Ni – число работ, проверенных i-м экспертом.
Аналогично для каждого эксперта строится коэффициент нестабильности путем сложения модулей разностей баллов за все задания, в которых он превысил оценку эксперта большей лояльности, чем он сам, и модулей разностей баллов за все задания, в которых он занизил оценку в сравнении с экспертами более низкой лояльности, чем он сам. Эта сумма делится на число проверенных им работ. Коэффициент нестабильности характеризует несогласованность данного эксперта с мнениями остальных экспертов. Формула для его вычисления выглядит следующим образом:
где сумма берется по всем j, для которых либо li< lj и rij>0, либо li> lj и rji< 0.
Оба эксперта, проверявших одну и ту же работу, всегда находятся в одной связной компоненте, поэтому их параметры можно между собой сравнивать, что позволяет получать компромиссную оценку для данной работы:
где с – окончательная оценка за задание; w1 w2 – «веса» экспертов; с1, с2 – оценки, изначально выставленные экспертами.
Исходя из этого построение компромиссной экспертной оценки следует из принципов:
• компромиссная оценка не должна быть ниже наименьшей оценки экспертов и выше наибольшей, она должна принадлежать множеству допустимых значений оценок большинства экспертов;
• оценки экспертов, дававших стабильно завышенные или заниженные результаты либо показывавших очень нестабильные результаты, учитываются тем меньше, чем в большей мере наблюдаются данные недостатки.
Окончательной считается оценка, построенная как взвешенная сумма оценок двух экспертов. В большинстве случаев компромиссная оценка вычисляется путем арифметического усреднения и последующего округления.
Если же в оценках экспертов имеют место значительные расхождения, то для проверки назначается третий эксперт. Независимая оценка третьего эксперта за решения всех заданий в этом случае считается окончательной, если она не выходит за границы интервала баллов, определенных первыми двумя экспертами.
При шкалировании результатов единого государственного экзамена учитываются только окончательные оценки.
Вопросы и задания
1. Какие виды тестов используются в образовании?
2. Чем принципиально отличаются классические тесты от контрольных измерительных материалов современного тестирования?
3. В чем особенность конструирования тестов по методологии IRT?
4. Перечислите основные статистические характеристики тестовых заданий.
5. Какую информацию дает характеристическая кривая о качестве тестового задания?
6. Что понимается под эффективностью теста?
7. Перечислите основные принципы выделения контролируемых дидактических единиц для создания теста.
8. Перечислите основные этапы конструирования теста.
9. Какие формы тестовых заданий используются в ЕГЭ?
10. Какие виды шкал используются в образовании при контроле?
11. Чем различаются первичные и тестовые баллы?
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.