Автор книги: Марина Челышкова
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 16 (всего у книги 17 страниц)
7.3. Требования к содержанию аттестационных тестов
1. Содержание теста должно полностью соответствовать цели создания. Выполнение требования предполагает ясную формулировку цели и подробное описание проверяемых содержательных элементов, знаний, умений и так далее в спецификации теста.
2. Отображение требований ФГОС в содержании теста должно быть по возможности полным. В содержании теста, предназначенного для целей аттестации, необходимо отобразить объем требований ФГОС, который условно можно принять за 100%.
3. Содержание теста должно обладать правильными пропорциями . Оно должно охватывать все важные аспекты предметной области в правильном соотношении, соответствующем используемым учебным программам или другим документам, определяющим структуру и пропорции содержания учебной дисциплины.
4. Содержание теста должно соответствовать спецификации. Не следует перенасыщать содержание теста теми разделами, по которым легче составить задания.
5. Содержание разделов гомогенного теста должно удовлетворять требованию однородности, что означает наличие только положительных значимых корреляций между результатами по заданиям внутри раздела. Содержание заданий каждого раздела теста должно обладать дисциплинарной общностью, которая устанавливается путем анализа корреляционной матрицы, полученной подсчетом интеркорреляций между результатами испытуемых по отдельным заданиям теста.
6. Содержание каждого задания теста должно удовлетворять требованию значимости. Необходимо включать в тест только те элементы содержания, которые являются наиболее важными, ключевыми элементами курса.
7. Содержание каждого задания теста должно быть логически корректным. Корректность означает, что при правильном выполнении задания испытуемые приводят или выбирают только запланированные разработчиком ответы.
8. Каждое задание тестов должно обладать высокой содержательной валидностью. Коэффициент точечной бисериальной корреляции между результатами репрезентативной выборки испытуемых по каждому заданию и суммой баллов по тесту должен быть не меньше 0,3.
9. В гетерогенном полидисциплинарном тесте содержание каждого гомогенного субтеста должно удовлетворять требованиям к качеству гомогенного теста.
10. Каждый субтест полидисциплинарного теста должен обладать содержательной независимостью от остальных субтестов гетерогенного теста. Результат по каждому гомогенному субтесту должен быть снабжен содержательно-независимой интерпретацией, которая в совокупности с другими соответствует общей цели создания полидисциплинарного теста.
11. Качество содержания и размерность пространства измерений междисциплинарного гетерогенного теста, состоящего из междисциплинарных заданий, необходимо обосновывать путем применения методов многофакторного анализа. Для этого из матрицы интеркорреляций между заданиями должны быть выделены независимые факторы, а в каждом факторе со значимыми нагрузками выделяются непересекающиеся подмножества заданий междисциплинарных тестов.
Общие требования к форме представления тестовых заданий во всех видах тестов представлены ранее (см. Основные подходы к разработке измерителей).
7.4. Требования к статистическим характеристикам теста
Итоговые тесты, используемые для целей аттестации, обязательно должны проходить процедуру статистического обоснования качества. При представлении результатов обоснования на сертификацию необходимо указать теоретическую базу (классическую теорию или IRT), использованную разработчиком для статистического обоснования качества теста.
1. Статистические данные о результатах выполнения задания должны включать: распределение ответов испытуемых (в процентах) по выделенным кодам и/или баллам; процент испытуемых, не приступавших к выполнению задания; значения точечно-бисериального коэффициента по каждому коду или баллу, включая группы не приступавших к выполнению задания, выполнивших задание неправильно, выполнивших задание частично и полностью выполнивших задание правильно.
2. Тестовое задание с выбором ответов должно сопровождаться оценками качества работы дистракторов, которые необходимо получать в долях испытуемых, выбравших каждый дистрактор, и в виде бисериального коэффициента корреляции. Дистрактор считается работающим, если доля испытуемых отлична от нуля, а бисериальный коэффициент принимает отрицательное значение и значимо отличается от нуля.
3. Тестовое задание должно иметь статистическую оценку трудности в долях правильных ответов испытуемых, в процентах правильных ответов или в шкале логитов, если использовалась современная теория конструирования тестов.
4. Тестовое задание должно иметь оценку валидности, полученную с помощью индекса дискриминативности, точечного бисериального коэффициента или параметра дифференцирующей способности.
5. Распределение статистик по каждому варианту теста должно удовлетворять критериям правдоподобности при проверке гипотезы о нормальном распределении эмпирических результатов (для нормативно-ориентированных тестов).
6. Распределение индивидуальных (сырых) баллов должно иметь правостороннюю асимметрию (для критериально-ориентированных тестов).
7. Для комплекта вариантов теста необходимы нормы, включающие среднее значение сырых баллов, дисперсию с указанием временного промежутка действия норм. Среднее значение должно быть в центре распределения индивидуальных баллов, дисперсия должна значимо отличаться от нуля без нарушения нормальности распределения.
8. Для комплекта вариантов теста необходимо указать надежность с указанием метода оценки; надежность не должна быть менее 0,8.
9. Для комплекта вариантов теста необходимо указать результаты экспертного оценивания содержательной валидности теста.
10. Для аттестационных тестов требуется обоснование параллельности вариантов с указанием необходимых для обоснования статистик. При использовании якорных тестов для компоновки вариантов приводится процедура выравнивания вариантов.
11. Для полидисциплинарных тестов, состоящих из отдельных гомогенных субтестов, необходимо выбрать и обосновать основания для определения относительных весов при суммировании баллов испытуемых по отдельным субтестам в процедуре подсчета итогового балла.
12. Для гетерогенных междисциплинарных тестов, состоящих из комплексных междисциплинарных заданий, необходимо определить и обосновать основания выбора шкал: описание использованных методов многомерного шкалирования и результаты факторного анализа.
13. Число заданий любого варианта теста не должно быть менее 25.
7.5. Требования к характеристикам тестовых заданий компьютеризованного банка
1. Каждое задание банка должно иметь индивидуальный номер и храниться в форме, позволяющей управляющей программе извлекать его из банка для компьютерной сборки теста или тематической распечатки.
2. Каждое задание банка должно иметь код тематической принадлежности и код контролируемого элемента содержания.
3. Каждое задание банка должно быть отнесено к определенному уровню сложности и иметь статистически полученную устойчивую оценку параметра трудности.
4. Для каждого задания банка указывается время его выполнения, полученное статистическим путем.
5. В качестве необходимой характеристики задания в банке должен присутствовать эталон правильного ответа и критерии оценивания выполнения задания.
6. В банке должен быть предусмотрен индикатор отнесенности задания к недействующим.
7. При наличии в банке заданий с идентичной логико-тематической структурой их необходимо маркировать так, чтобы при сборке варианта исключить попадание родственных заданий в один вариант.
8. При использовании заданий с числовыми или символьными переменными (фасетные задания) каждое значение из массива должно маркироваться как отдельное, так как подстановка разных значений изменяет трудность задания.
9. Тематическая структура банка должна соответствовать нормативным документам по каждой учебной дисциплине.
10. В банке для каждого задания должно быть выделено не менее двух уровней содержательной маркировки. Один из них указывает на тематическую принадлежность, а другой фиксирует проверяемые знания или умения (уровень деятельности).
11. Технология сборки теста должна предусматривать возможность генерации вариантов как в ручном, так и в автоматическом режиме по заданной спецификации теста. В технологии должна быть предусмотрена возможность корректировки теста после компьютерной сборки.
12. В технологии генерации вариантов теста необходимо учитывать содержательную принадлежность заданий и статистические оценки параметров заданий, позволяющие осуществить определенную композицию вариантов теста.
13. В рамках технологии генерации вариантов теста необходимо предусмотреть опцию варьирования – автоматической перестановки ответов (с обязательным перемещением правильного ответа) для заданий закрытого типа.
14. После сборки вариантов теста должен формироваться сопроводительный лист, в котором указываются технологические характеристики вариантов, последовательность расположения заданий в варианте и другие характеристики.
7.6. Порядок сертификации тестов
Процедура сертификации ПТМ состоит из трех этапов. На первом, подготовительном этапе, заказчик (разработчик ПТМ) и Центр сертификации согласовывают все условия, необходимые для проведения работ по сертификации. Данный этап начинается с заполнения и высылки в адрес Исследовательского центра заявки на сертификацию и информационной карты сертифицируемых ПТМ. В рамках предварительного этапа производится согласование объема и стоимости работ, а также дополнительных условий. Первый этап завершается подписанием договора на проведение работ по сертификации, предоставлением заказчиком необходимых материалов для сертификации и оплатой работ по сертификации.
Второй этап включает в себя работу экспертной комиссии и подготовку заключения по результатам экспертизы. По результатам экспертизы качества ПТМ Центр сертификации выносит решение о выдаче сертификата качества ПТМ либо о выдаче свидетельства о несоответствии ПТМ требованиям к качеству ПТМ. По согласованию с заказчиком в рамках дополнительного соглашения могут быть подготовлены содержательные рекомендации по доведению характеристик ПТМ на необходимый уровень.
Третий этап является заключительным, на котором Центр сертификации качества ПТМ выдает сертификат качества ПТМ или свидетельство о несоответствии ПТМ требованиям к качеству ПТМ. В случае положительного решения по согласованию с заказчиком информация о сертифицированных ПТМ вносится в Федеральный реестр сертифицированных ПТМ.
Формы документов:
• заявка на сертификацию;
• информационные карты сертифицируемых ПТМ;
• педагогические тесты;
• компьютеризованные банки тестовых заданий;
• типовая форма договора на проведение работ по сертификации.
Заключение
Подготовке этой книги в значительной мере помог опыт авторов, более двадцати лет занимающихся проблемами измерений в образовании.
Как это нередко бывает, ее первоначальный замысел изменялся по мере написания. В некоторых разделах в интересах усиления доказательности изложения пришлось пожертвовать его краткостью. А в других, как, например, в пятом, авторы вынуждены были в интересах соблюдения требуемого объема книги сократить число примеров контрольных заданий, что сказалось на полноте изложения. Теперь, когда книга завершена, авторам стало очевидно, что раздел о статистической обработке результатов выполнения тестов желательно усилить численными примерами. Иными словами, уже сейчас видны те направления доработки пособия, которые целесообразно реализовать в следующем издании, если, конечно, оно будет готовиться к печати.
Неизменным в книге остался особый акцент на теории педагогических измерений, не характерный для большинства отечественных публикаций по данной проблематике и являющийся, по мнению авторов пособия, главным его преимуществом. Подробное рассмотрение всех компонентов процесса измерений в образовании приведено с опорой на бипарадигмальную методологию, которая, на наш взгляд, должна в конечном счете примирить всех сторонников и противников педагогических тестов.
Практика контроля качества процесса и результатов образования убедительно показала, что тесты, несомненно, полезны. Однако их не следует рассматривать как единственный инструментарий аттестации будущих специалистов в отрыве от остальных средств измерения, которые могут включать традиционные и практико-ориентированные контрольные задания, приводить как к количественным, так и качественным шкалам и по формальным признакам вовсе не походить на тесты.
Основным демаркационным признаком измерителя является вовсе не форма тестового задания, как утверждали раньше некоторые отечественные теоретики, а наличие у совокупности заданий таких статистических характеристик, которые позволяют получать надежные, валидные и сопоставимые(в условиях аттестации) результаты педагогических измерений. Для того чтобы совокупность заданий выполняла функции измерителя, необходимо анализировать результаты контроля качества образования испытуемых, оценивать их соответствие концептуально выбранной переменной измерения, анализировать точность измерений.
Следует также при интерпретации баллов учитывать предысторию развития студента и дополнительную информацию о нем, релевантную целям измерения, а лишь потом использовать результаты оценивания для принятия управленческих решений в образовании.
Несомненно, что эти и некоторые другие проблемы в полной мере в этом учебном пособии не отражены. Однако его следует рассматривать лишь как первую книгу в серии, посвященной проблемам разработки оценочных средств в рамках компетентностного подхода к трактовке качества результатов образования.
В рамках такой серии необходимы также специальные книги по теории IRT, многомерному шкалированию, факторному и дисперсионному анализу результатов педагогических измерений, методам анализа прироста учебных достижений, поскольку компетентностный подход, безусловно, требует лонгитюдных измерений, отслеживающих процесс формирования компетенций у каждого студента и фиксирующих прирост в вузовских системах мониторинга качества образования. Необходимы также методики анкетирования и взаимодействия с работодателями, методики обработки, анализа и интерпретации данных о качестве образования и др.
Очевидно, что подготовка подобной серии изданий под силу лишь квалифицированному и многочисленному коллективу, представляющему различные высшие учебные заведения. Авторы пособия заинтересованы в сотрудничестве с коллегами, имеющими родственные интересы, и предлагают им направлять свои предложения о подготовке публикаций в рамках задуманной нами серии изданий по следующему электронному адресу: [email protected]
Словарь терминов
А
Анализ заданий – процесс определения статистических характеристик заданий на основе обработки, анализа и интерпретации эмпирических результатов выполнения теста репрезентативной выборкой испытуемых.
Апробация – пробное тестирование, предшествующее основному и предпринимаемое в целях коррекции и доработки теста.
Б
Балл истинный – гипотетическая оценка переменной измерения, не зависящая от средств измерения, являющаяся константой испытуемого в момент измерения, но меняющаяся в процессе обучения.
Балл критериальный (пороговый) – тестовый балл, определяемый экспертными и статистическими методами и делящий группу испытуемых на подгруппы по результатам выполнения теста согласно выбранному критерию.
Балл наблюдаемый – количественный показатель выраженности измеряемого свойства, полученный непосредственным суммированием (с весовыми коэффициентами или без них) результатов испытуемого по отдельным заданиям теста.
Балл стандартизованный (шкалированный) – переведенный в одну из стандартных шкал наблюдаемый балл. Обычно он выражает отклонение результата испытуемого от среднего значения баллов, выраженное в единицах стандартного отклонения.
Банк тестовых материалов – структурированная совокупность накопленных тестовых заданий или тестов с устойчивыми статистическими характеристиками, представленная, как правило, в компьютерной форме с помощью соответствующих программно-инструментальных средств.
Батарея тестов – совокупность специальным образом подобранных тестов, системообразующие свойства и совместимость которых обоснована статистическим путем.
В
Валидность – многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней. В более простой формулировке валидность можно определить как совокупность характеристик, определяющих способность теста служить поставленной цели его создания.
Валидность задания – количественная характеристика способности задания служить целям дифференциации испытуемых по значениям измеряемой переменной при выполнении теста. Валидность задания оценивается путем подсчета индекса дискриминативности, бисериального коэффициента корреляции, дифференцирующей способности задания теста.
Валидность прогностическая – количественная характеристика теста, предназначенная для выявления точности и обоснованности ближайшего и отдаленного прогноза, экстраполяции результатов измерения на будущее, производимых на основе результатов тестирования.
Валидность содержательная – качественная характеристика теста, фиксирующая репрезентативность представленного в тесте содержания дисциплины.
Вес задания – числовой коэффициент, выбранный экспертным или статистическим методами и используемый при подсчете итоговых баллов испытуемых по тесту.
Внутренняя согласованность – характеристика гомогенности теста, указывающая на степень дисциплинарной общности (однородности) содержания заданий теста.
Выборка репрезентативная – формируемое специальным образом подмножество генеральной совокупности, пропорции которого отражают в том или ином масштабе пропорции всех наиболее значимых страт, реально существующих в генеральной совокупности. Репрезентативная выборка используется для стандартизации теста.
Выборка случайная – формируемое случайным образом подмножество исследуемого множества (генеральной совокупности) элементов.
Выборка стандартизации – формируемое специальным образом для достижения репрезентативности подмножество генеральной совокупности, используемое для определения норм теста.
Выборки объем – число элементов, извлеченных из генеральной совокупности в соответствии с задачами исследования, степенью однородности генеральной совокупности, заданной величиной доверительной вероятности и требуемой точностью результатов измерения.
д
Дискриминативность задания (синоним – дифференцирующая способность задания) – числовая характеристика способности задания дифференцировать испытуемых по величине измеряемой переменной относительно наибольшего и наименьшего результатов. Оценивается с помощью бисериальной корреляции в рамках классической теории тестов.
Дисперсия – показатель разброса некоторого множества результатов измерений вокруг среднего арифметического, подсчитываемый как усредненное значение возведенных в квадрат отклонений от арифметического среднего, квадрат стандартного отклонения.
Дистрактор – разрабатываемые в заданиях с выбором варианты неправильных, но правдоподобных ответов, отвлекающие внимание испытуемого при выборе правильного ответа.
Дистракторный анализ – статистический метод изучения правдоподобности дистракторов, строящийся на анализе частоты выбора неправильных ответов испытуемыми группы.
Длина теста – количество заданий в тесте, оптимизируемое в соответствии с другими параметрами (цели тестирования, время тестирования, возраст учащихся и т.д.) статистическим путем.
3
Задание на дополнение (конструирование) ответа – тестовое задание, требующее от испытуемого самостоятельного получения краткого (регламентированного) или развернутого (свободно конструируемого) ответа.
Задание на установление правильной последовательности – тестовое задание, требующее от испытуемого установления правильной последовательности в ряду предлагаемых педагогом элементов.
Задание на установление соответствия – тестовое задание, требующее от испытуемого установления соответствия между элементами двух множеств, одно из которых содержит задающие элементы, а другое элементы для выбора.
Задание с выбором – тестовое задание, требующее от испытуемого выбора правильного ответа из числа предлагаемых в задании.
Задание тестовое – контрольное задание, содержание, форма и статистические свойства которого удовлетворяют набору тестологических требований.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.