Текст книги "Тестовый контроль в образовании"
Автор книги: Надежда Ефремова
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 13 (всего у книги 28 страниц)
P = Cnm pmqn–m,
где n – количество заданий в тесте; m – количество угаданных правильных ответов; р – вероятность угадывания правильного ответа в каждом задании; q – вероятность получения неправильного ответа [208].
В вопросах с альтернативными вариантами ответов увеличение числа заданий в тесте при четырех или пяти альтернативах в каждом задании существенно уменьшает возможность угадывания с вероятностью, близкой к нулю (табл. 2).
Таблица 2
Вероятность угадывания в зависимости от числа альтернативных вариантов ответов
Еще один достаточно простой метод коррекции индивидуальных баллов с учетом угадывания правильного ответа осуществляется по формуле:
где Xi – скоррекшрованный балл i – го испытуемого; Xi – тестовый балл до коррекции; Wi – число неправильно выполненных или пропущенных заданий; n = Xi + Wi – число заданий в тесте; а m – число предложенных ответов на задание [245].
Например, для теста из 60 заданий с пятью ответами, если тестируемый выполнил правильно 50 заданий, то скорректированный балл будет равен 48. Если же выполнено только 40, то после коррекции получим 35 баллов, а если выполнено только 30, то всего 23 балла. Таким образом, при необходимости (при малом числе дистракторов) можно внести коррекцию на случай их угадывания и из окончательного результата (суммы баллов) вычитать вероятное число баллов, которое может быть набрано за счет угадывания. Однако справедливее использовать достаточное количество дистракторов (к каждому заданию 4—5), которого вполне достаточно для необходимого снижения вероятности угадывания правильного ответа.
Важное значение для получения истинного результата педагогических измерений имеет техника тестирования, подразумевающая ряд требований, основная часть которых справедлива для любых видов или форм тестовых заданий и должна учитываться при их подготовке:
• из текста задания должны быть убраны всякая двусмысленность и неясность формулировок, используется только логическая форма высказывания;
• формулировка задания должна быть краткой и состоять из одного предложения (семь–восемь слов);
• синтаксическая конструкция должна быть предельно простой, допускается не более одного придаточного предложения;
• основной текст задания должен содержать почти все необходимые слова, а для ответа остаются одно, два, максимум три слова, ключевых для данной проблемы, – правильная форма задания;
• все ответы на задание должны быть однотипны и одинаковой длины, соблюдается наличие определенного места для ответа;
• из текста убираются все вербальные ассоциации, способствующие угадыванию правильного ответа;
• соблюдается правильность расположения элементов задания;
• частота номера места правильного ответа в разных заданиях теста должна быть равновероятной;
• не рекомендуется в ответы вводить слова «все», «ни одного», «никогда», «всегда»;
• из числа неправильных исключаются ответы, вытекающие один из другого или выясняющие мнение тестируемого по какому–либо вопросу;
• одинаковость правил оценки ответов распространяется на все задания;
• для всех испытуемых дается одинаковая инструкция, адекватная форме и содержанию задания.
Самыми распространенными являются задания с выбором одного или нескольких правильных ответов. Как правило, это задания закрытой формы.
В заданиях закрытой формы выделяют основную часть утверждения, содержащую постановку проблемы, и готовые ответы, сформулированные разработчиком теста. Среди нескольких ответов чаще всего только один бывает правильным. Эта форма тестовых заданий удобна для автоматизации контроля знаний и хорошо воспринимается тестируемыми. В заданиях этой формы широко используется принцип вариативности (фасетности). Особенности и примеры заданий с разными принципами композиции приведены в приложении 2.
В последнее время в отечественной и зарубежной практике рекомендуется использование в тесте нескольких разных форм тестовых заданий. Соблюдение принципа единства формы достигается тем, что задания разных форм группируются в отдельные обособленные части тестов (субтестов), в каждой группе одинаковых по форме заданий соблюдается принцип адекватности инструкции форме и содержанию заданий, позволяющий довести до сознания испытуемого все требования, заложенные в содержании задания. Это особенно важно при создании контрольно–оценочных материалов для итоговой аттестации и единого государственного экзамена. В этих тестах практикуется использование трех форм: задания «А» – закрытой формы, задания «В» – открытой формы и «С» – задания–эссе. Число заданий типа «А», как правило, достигает 50—60% общего числа заданий теста. Вторыми по технологичности являются задания открытой формы «В» со свободно представляемым ответом (число, слово и т.д.), их количество достигает 25—30%. В последнее время широко используются задания типа эссе (10—15%), как правило, ответы на них конструируются в свободной форме и проверяются экспертами.
Для удобства конструирования тестов создается банк комбини–рованых заданий, в котором они располагаются определенным образом по статистическим характеристикам. Общим подходом к созданию банка заданий является их калибровка – процесс определения устойчивых характеристик заданий, позволяющих согласно теории IRT заранее планировать надежность тестов. Одним из важнейших признаков распределения заданий в банке является содержание предмета в виде разделов, подразделов и тем. В каждом разделе (подразделе или теме) банка задания распределяются по типам тестовых форм. Каждому заданию даются полные тексты, правильный ответ, дистракторы, алгоритм решения или этапы конструирования правильного ответа. Затем приводятся тестологические характеристики качества заданий: показатели содержания, показатели использования, статистические показатели.
Показатели содержания – номера раздела, подраздела и темы; тип трудности задания (1 – задания на достижение требования стандарта; 2 – задания, превышающие уровень требований стандарта; 3 – задания повышенной сложности; 4 – олимпиадные задания); требуемый уровень знаний, умений и навыков (1 – воспроизведение; 2 – решение по образцу; 3 – творческий уровень); указание на возможности использование в фасете.
Показатели апробации – представления о выборке учащихся апробационного тестирования; процент верных ответов для групп учащихся с разной подготовкой тестируемых; среднее время выполнения задания.
Статистические характеристики – результаты дистракторного анализа (как часто в качестве правильного ответа выбирался тот или иной дистрактор); показатели корреляционного анализа (для нормативно–ориентированных тестов); статистические показатели трудности и дифференцирующей способности задания.
Для удобства работы с банком тестовых заданий в последнее время используют два вида информации для каждого задания банка:
• стартовый набор характеристик – код темы, контролируемый элемент содержания, порядковый номер требования образовательного стандарта, авторская оценка трудности задания, уровень знаний и умений, рекомендуемое время выполнения, правильный ответ, ссылка на первоисточник, тип задания, критерии оценки выполнения задания;
• результаты статистической обработки – число тестируемых, не давших правильный ответ, параметр трудности, распределение ответов по дистракторам, информационная функция и характеристическая кривая задания, дифференцирующая способность, парамеры трудности для пограничных групп тестируемых, точечно–бисериальные коэффициенты корреляции ответа и дистракторов, другие результаты статистической обработки [17, 136, 200].
Для этого используется стандартизированное тестирование, благодаря которому достигается сопоставимость результатов разных массивов испытуемых и появляется возможность выражения тестовых баллов в относительных показателях для различных вариантов тестов [219]. Стандартизация (от англ. standard – типичный, нормальный) в приложении к тестированию – это унификация и приведение к единым нормам характеристик тестов, процедуры тестирования и оценивания.
В системе тестирования используется несколько форм стандартизации:
• типов тестовых заданий, методик их разработки и комплектования в пакеты параллельных тестов;
• способов проверки надежности, валидности тестов, их апробации, отбраковки некачественных тестовых заданий, процедуры совершенствования структуры теста;
• способов обработки результатов тестирования, процедуры проведения, методики количественного и качественного анализа результатов тестирования;
• процедуры проведения тестирования, унификация инструкции, бланков, тестовых материалов, условий проведения тестирования;
• целей тестирования и категорий испытуемых;
• подсчета баллов по результатам тестирования.
Процесс тестирования стандартизируется, если выполняется ряд требований:
• инструкции к одной форме заданий даются одними и теми же словами;
• ни одному тестируемому не дается преимуществ перед другими;
• система подсчета баллов применяется одинаково ко всем испытуемым;
• тестирование всех групп испытуемых проводится в одно время;
• все испытуемые получают одинаковые по содержанию и трудности задания.
При этом подготовка к тестированию также предусматривает ряд требований:
• организацию контроля согласно разработанной инструкции;
• предварительную подготовку испытуемых к тестированию;
• создание соответствующих условий для проведения тестирования (место, техника, приборы, программно–методические материалы);
• создание благоприятных психологических условий;
• представление теста в эффективной форме;
• оптимизацию системы подсчета баллов, методов их представления и интерпретации результатов.
Кроме того, следует учитывать, что точность тестовых оценок возрастает по мере повышения однородности (гомогенности) содержания теста, когда содержание всех заданий нацелено на измерение одной и той же переменной.
В табл. 3 приведен один из вариантов матрицы тестирования, которая позволяет не только зафиксировать общее количество баллов, полученное каждым тестируемым, но и провести качественную оценку содержания знаний, усвоенных испытуемыми.
Таблица 3
Матрица результатов тестирования
Из практики применения тестов следует, что чем более массовый характер имеет тестирование, тем большее число задач оно решает, тем более ответственны процедура и результат тестирования, больше вероятность получения ошибочных выводов при использовании некачественных контрольно–оценочных материалов. Именно поэтому для массовых обследований необходимо разрабатывать и использовать качественные педагогические измерители, применять современные технологии обработки, оценивания, анализа и интерпретации результатов тестирования. Это правило создает границы применимости различных по качеству текстов: авторских претестовых заданий для текущего контроля; стандартизированных тестов для массовых проверок учебных достижений школьников; итоговой аттестации выпускников или отбора абитуриентов.
Применение авторских тестов на локальном уровне возможно, но их тиражирование может иметь следствием получение недостоверных результатов на больших выборках испытуемых. Сегодня на уровне регионов и территорий для аттестации и определения качества образовательных учреждений, как правило, используются авторские контрольно–оценочные материалы, не позволяющие определять качество и, тем более, сравнивать показатели разных образовательных систем между собой.
3.5. Методы шкалирования результатов тестирования
Развитие и внедрение современных тестовых методов и технологий остро ставит вопрос необходимости совершенствования техники обработки результатов тестового контроля. Проблема надежности шкалирования результатов тестирования в педагогических измерениях так же важна, как подготовка качественного теста или техника тестирования.
В самом широком смысле измерение сводится в конечном счете к припис^гванию чисел измеряемым объектам или событиям согласно определенным правилам. Правила устанавливают соответствие между некоторыми свойствами объектов и чисел, позволяющее сравнивать между собой эти объекты по состоянию измеряемого свойства. В зависимости от целей измерения и сопоставления тех или иных объектов выбираются различные правила, отображающие различные свойства объектов. Переменные различаются тем, насколько хорошо они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает их шкала. Всякий раз при измерениях нужного свойства выбирают соответствующую измерительную шкалу. Шкала – это средство фиксации результатов измерения определенных свойств объектов путем упорядочения их в определенную числовую систему, в которой отношение между отдельными результатами выражено в соответствующих числах. Очевидно, в каждом измерении всегда присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение.
В образовательной практике выделяют четыре основных вида шкал, получивших наиболее широкое распространение: номинальная, порядковая (ординальная), интервальная, относительная. Согласно С.С. Стивенсу, они получили следующие названия: шкала наименований, шкала порядка (ранговая шкала), интервальная шкала и шкала отношений [172]. Измерения на первых двух шкалах считаются качественными, а на двух других – количественными. Шкалы качественных измерений называют дискретными, а количественных – непрерывными. В каждой из этих шкал определены свойства чисел, приписываемых объектам. По этим признакам шкалы перечислены в таком порядке, что в каждой последующей, кроме свойств предыдущей шкалы, добавляются и новые. Поэтому чем больше порядок шкалы, тем больше арифметических действий разрешается проводить над числами, приписанными объектам на этих шкалах.
Номинальная, или шкала наименований, самая простая, например: зачет – незачет. Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам, при этом определить количество или упорядочить эти классы невозможно. Типичные примеры номинальных переменных – пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Шкала наименований устанавливает критерии, позволяющие распределить измеряемые объекты по состоянию измеряемого свойства на несколько классов (или категорий). При этом каждый объект должен попасть в определенный класс, в котором объектам приписывается одно и то же число. Объекты одного класса считаются одинаковыми по состоянию измеряемого свойства. Примером является дихотомическая шкала: выполнившие задание получают число 1, а невыполнившие – 0. Методы обработки таких результатов оценивания знаний называют статистикой качественных признаков. Данные, соответствующие номинальным шкалам, составляют наблюдаемые значения частот появления каждой из разновидностей изучаемой переменной. Эти результаты, как правило, используются при построении матриц результатов педагогических измерений.
Порядковые шкалы (например, пятибалльная) – это шкалы, результаты измерений по которым невозможно сравнивать между собой. Порядковые переменные позволяют только ранжировать (упорядочить) объекты, указав, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать на сколько больше или на сколько меньше один результат отличается от другого. Само расположение шкал – номинальная, порядковая, интервальная – является примером порядковой шкалы. В пределах порядковых шкал можно только упорядочить объекты в порядке возрастания или убывания оценок измеряемых параметров. На такой шкале оцениваются только качественные признаки объектов, например оценка А > В, или медианный объект, который по измеряемому свойству переходит за 50%. Число, приписываемое такому объекту, называется медианой и принимается за меру центральной тенденции грутты объектов [121].
Шкала более высокого уровня называется интервальной (или шкалой равных единиц). Интервальные переменные позволяют не только упорядочить объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Она позволяет сказать, что температура 40 градусов выше, чем температура 30 градусов, и что увеличение температуры с 20 до 40 градусов вдвое больше увеличения температуры с 30 до 40 градусов. Интервальная шкала – количественная, можно задать разность оценок (Х1 – Х2 ), абсолютное значение которой трактуется как расстояние между двумя элементами множества, выраженное в определенных единицах. Для такой шкалы характерно отсутствие начала отсчета, равного нулю, но допустимы различные арифметические действия над числами. Эта шкала задает взаимное положение измеряемых объектов относительно друг друга, но не показывает расположение объектов относительно начала координат. Так, например, разности баллов 48 – 45 и 5 – 2 одинаковы, а смысл их разности может быть различным. К результатам измерений на такой шкале применимы почти все статистические операции.
Интервальная метрическая, или нормальная, – это такая шкала, у которой задано начало отсчета. На такой шкале можно определить не только метрики (единицы измерения), как на интервальной шкале, но и понятие нормы (местоположения от начала координат). В современной теории педагогических измерений перевод «сырых» баллов («сырые» баллы дают оценки на порядковой шкале обычно в числе правильно выполненных заданий) производится на интервальную шкалу, учитывающую степень трудности выполненных заданий. Для визуализации такой шкалы можно представить уровни трудности тестовых заданий βj и профили ответов, соответствующих подготовленности θi (рис. 14).
Рис. 14. Условный вид шкалы уровней трудности тестовых заданий и уровней подготовленности испытуемых
Шкала отношений позволяет получать самый высокий уровень измерений: допускает не только приписывание числа измеряемому объекту, но и все арифметические действия над этими числами и статистические операции, а также устанавливает равенство отношений чисел, приписываемых объектам, что вытекает из фиксированного положения нуля. Любая интервальная шкала может использоваться в качестве шкалы отношений, если в рамках проводимого измерения задать начало отсчета. Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие нуля. Таким образом, для этих переменных являются обоснованными предложения типа: Х в два раза больше, чем Y. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, можно не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. На шкале отношений к полученным результатам применимы все известные понятия и методы математической статистики.
Содержательная статистическая обработка и интерпретация результатов измерений по этим шкалам могут быть только в том случае, когда методы обработки адекватны тем шкалам, к которым отнесена исходная информация. Методологией любого исследования по измерению и оценке результатов обучения является вероятностный подход, а методикой – применение аппарата математической статистики (см. приложение 3) [20, 36, 46, 89—92, 198, 233, 229]. Как понятие качества подготовленности оценка на шкале педагогических измерений имеет два основных смысла: суждение о ценности полученного знания и приблизительную характеристику некоторой величины – подготовленности [73, 183, 204].
Особенно важно использование различных шкал при тестировании, что, собственно, и делается при расчете сертификационных или тестовых баллов. При этом эффективность тестовых оценок зависит не только от качества теста, но и от используемых методов сравнения и интерпретации первичных («сырых») баллов. Стремление выявить истинные уровни знаний испытуемых, получить возможность сравнивать эти уровни между собой даже тогда, когда они определены по разным тестам, привело исследователей к разработке новых методов интерпретации результатов тестирования. Одной из сильных сторон тестового метода является не оценивание абсолютных результатов подготовленности, а измерение уровня учебных достижений обучающихся.
Это особенно важно при приеме в вузы, итоговой аттестации учащихся и диагностике качества их подготовленности.
Шкалированием принято называть комплекс вопросов, связанных с отображением на определенной шкале с единой метрикой латентных характеристик трудности всех заданий теста и выставлением каждому участнику тестирования окончательного балла, отображающего уровень его учебных достижений в заданной области знаний вне зависимости от того, в какой группе и над каким вариантом работал испытуемый.
При исследованиях предлагается учитывать ряд педагогических гипотез статистического типа: результаты выполнения одной и той же группой испытуемых различных заданий одинакового уровня не имеют существенных различий, а наблюдаемое различие объясняется случайными причинами; результаты двукратного выполнения одной и той же группой одного и того же задания существенно различаются, эти различия нельзя объяснить только случайными причинами; результаты выполнения одних и тех же заданий учащимися городских и сельских школ существенно различаются, фактор расположения школы (в определенном социуме) влияет на успеваемость учащихся.
Основной целью современного педагогического тестирования является надежное измерение уровня учебных достижений испытуемых в определенной области знаний. Традиционные методы тестирования (классические) используют порядковые шкалы, отличающиеся друг от друга длиной, масштабом и значением центрального индекса. Балл тестируемого определяется количеством правильно выполненных заданий А из общего числа заданий К. Тогда отношение А/К можно выразить в процентах и получить 100–балльную шкалу, называемую процентной.
Окончательный балл участников тестирования зависит от относительных успехов каждого по сравнению с успехами других. Такие шкалы называют процентильными. Как и процентные, они имеют ранговый смысл. Недостатком этих шкал является невозможность сравнения полученных результатов между распределением результатов разных выборок тестируемых. В этих случаях требуется стандартизация измерений, избавляющая баллы от особенностей различных выборок испытуемых и позволяющая сопоставлять баллы на единой шкале. Для этого используется нормированная шкала. Она создается путем отношения всех эмпирических частот распределения первичных баллов к одному и тому же модельному распределению (центрированному и нормированному) – нормальному. Нормы – это множество показателей, которые устанавливаются эмпирически соответственно тому, как выполняет задания теста некоторая, четко определенная выборка тестируемых. Разработка и процедуры получения этих показателей составляют процесс стандартизации теста. Наиболее распространенными являются среднее арифметическое значение и стандартное отклонение по множеству индивидуальных баллов выборки стандартизации. При этом предполагается, что эмпирическое распределение баллов мало отличается от нормального [9]. Соотнесение первичного результата с нормами теста позволяет установить, соответствует ли полученный результат среднему или нет.
К нормам предъявляют ряд требований:
• норма должна быть дифференцированной, т.е. обучающиеся по разным программам должны сравниваться исходя из разных норм;
• норма должна быть соответственной, отражающей реальный контингент и реальные требования, вытекающие из современной ситуации в образовании, отражать реальную подготовленность контингента и реальные требования;
• норма должна быть репрезентативной, обеспечивающей несмещенные нормативные оценки (для ЕГЭ – оценки федеральной выборки) [195].
Понятие нормы относительное, тесно связанное с качеством выборки, используемой для стандартизации. Поэтому формирование выборки требует особого внимания при стандартизации теста: выборка должна точно отражать категорию испытуемых, для которых предназначен тест; быть достаточно большой и сбалансированной; обеспечивать пренебрежимо малую погрешность измерений. Сохраняя репрезентативность, можно ограничиться выборкой из 200—300 испытуемых. Еще более предпочтительна стратифицированная выборка, отражающая особенности и сочетания разных признаков тестируемых (социальное положение, пол, городские, сельские, с дополнительной подготовкой и без нее и др.). Стратификация обеспечивает представление правильных пропорций страт генеральной совокупности тестируемых. Исходя из этого формирование репрезентативной выборки стандартизации теста предусматривает:
• стратификацию выборки по наиболее важным переменным не менее чем по четырем уровням или подгруппам;
• в каждой подгруппе число испытуемых должно быть одинаковым и не менее 100.
С учетом возможных сочетаний переменных и оснований для стратификации объем выборки стандартизации теста во многих странах достигает 12 000—15 000 испытуемых [76].
Наблюдаемые результаты выполнения теста дают только «сырые» баллы, не обеспечивающие решение вопросов сопоставимости. Для возможности сопоставимости необходимо произвести перевод «сырых» баллов в одну из метрических стандартных шкал при помощи математических методов и моделей, обеспечив получение тестовых баллов. В основе такого преобразования лежит стремление повысить уровень измерений на интервальной шкале, допускающей упорядочение испытуемых на шкале с фиксированной единицей измерения. Отметим, что повышение уровня измерений путем шкалирования направлено на расширение возможностей интерпретации сопоставимых тестовых баллов, и это не связано с повышением точности измерений.
Методика перевода первичных баллов в нормализованные допускает замену оценок, выраженных в логитах, на оценки другой шкалы путем линейных преобразований, не нарушающих рейтинг учащихся на логистической шкале. Теоретической основой шкалирования результатов ЕГЭ и централизованного тестирования является современная теория моделирования и параметризации педагогических тестов на основе математических моделей их создания. Можно пользоваться однопараметрической логистической моделью Г. Раша. При этом первичные баллы обеспечивают достаточную статистику. Это означает, в частности, что все испытуемые, набравшие один и тот же первичный балл, получат практически одинаковые и окончательные тестовые баллы по 100–балльной шкале (очень небольшие отклонения от этого правила возможны только за счет непараллельности различных вариантов теста). Создать идеально параллельные тесты практически невозможно. Поэтому существуют методики выравнивания непараллельности различных вариантов теста с тем, чтобы оценки испытуемых, выполнявших разные варианты теста, не зависели от того, более трудный или более легкий вариант они выполняли [134].
Недостатком модели Г. Раша является то, что обработка результатов тестирования позволяет оценить для каждого тестового задания только одну его характеристику – уровень трудности. Другая характеристика – коэффициент дискриминации – непосредственно не оценивается и заменяется коэффициентом точечной бисериальной корреляции.
Можно использовать двухпараметрическую логистическую модель А. Бирнбаума, которая позволяет для каждого задания теста непосредственно оценивать и уровень трудности, и коэффициент дискриминации. Это удобно с точки зрения составления базы калиброванных заданий. Что же касается оценок уровня подготовленности испытуемых, то участники тестирования, верно выполнившие одинаковое количество заданий теста и набравшие, таким образом, один и тот же первичный балл, получают разные окончательные тестовые баллы. В этом нет никакой ошибки, результаты соответствуют сути дела, но такие «инверсии» оценок невозможно объяснить широкой аудитории пользователей. Расчет тестового балла при этом подходе производится более изощренным способом и теоретически более обоснован.
Важно, что при таком шкалировании учитываются свойства как верно, так и неверно выполненных заданий. При этом для легких заданий:
• за неверный ответ снимается много баллов;
• за верный ответ добавляется мало баллов.
Для трудных заданий:
• за неверный снимается мало баллов;
• за верный добавляется много баллов.
Обе модели имеют серьезное теоретическое обоснование, однако их практическое использование в массовом тестировании имеет разный психологический эффект. Вместе с тем такое шкалирование отвечает сути массового педагогического тестирования как контрольно–оценочного процесса и согласуется с особенностями измерений в любой другой области. Отметим некоторые из них, отражающие специфику шкалирования результатов тестирования:
• сертификационный балл учитывает не только процент верно выполненых заданий теста, но и уровень их трудности, коэффициент дискриминации, характеристики невыполненных заданий;
• уровень трудности заданий теста и коэффициент дискриминации оцениваются после совместной обработки всех результатов тестирования.
В общем случае не существует прямой зависимости между количеством выполненных заданий (первичных баллов) и сертификационными баллами, так как невозможно практически обеспечить полную параллельность различных вариантов одного и того же теста; по первичным баллам возможно только ранжировать учащихся, но измерять уровень их знаний нельзя. С математической точки зрения это значит, что шкала, индексами которой является число заданий (число первичных, или «сырых», баллов), является только порядковой, но не метрической, а поэтому первичные баллы являются лишь индикаторами подготовленности учащихся, а не измерителями.
Окончательный балл получается после обработки результатов тестирования всех учащихся по одному и тому же варианту теста с учетом статистических оценок трудности всех его заданий. Для расчета сертификационного балла используется 100–балльная шкала, обладающая единой метрикой для всех вариантов теста. В частности, для пересчета на 100–балльную шкалу используют формулу
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.