Электронная библиотека » Марина Челышкова » » онлайн чтение - страница 15


  • Текст добавлен: 28 октября 2013, 20:24


Автор книги: Марина Челышкова


Жанр: Прочая образовательная литература, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 15 (всего у книги 17 страниц)

Шрифт:
- 100% +
6.4. Метод Кьюдера-Ричардсона для дихотомических оценок

Метод Кьюдера-Ричардсона для оценки надежности также основан на однократном тестировании, но в отличие от предыдущего подхода не зависит от искусственных допущений о полной параллельности двух частей теста. Однако и он имеет свою ограниченную сферу применения, поскольку годится исключительно при использовании дихотомических оценок по результатам выполнения заданий гомогенных тестов.

Формула Кьюдера-Ричардсона (F. Kuder, M. Richardson-20, или KR-20) имеет вид [28, 36]

(6.10)

где рj – доля правильных ответов на j-е задание; qj доля неправильных ответов, qj = 1 – рj; SX2 дисперсия по распределению наблюдаемых баллов; n — число заданий теста.


Для исходной матрицы данных подсчитанная ранее исправленная дисперсия SX2 = 6,89 , а доли правильных ответов получаются делением чисел Rj в последней строке матрицы на 10. Тогда сумма произведений долей правильных и неправильных ответов будет 0,9 · 0,1 + 0,8 · 0,2 + 0,7 · 0,3 + 0,6 · 0,4 + 0,5 · 0,5+ 0,5 · 0,5 + 0,3 · 0,7 + 0,4 · 0,6 + 0,2 · 0,8 + 0,1 · 0,9 = 1,9 и коэффициент надежности

При оценке надежности нельзя полагаться лишь на один показатель, поскольку каждый из них имеет свои ограничения, смещающие оценки надежности теста в сторону завышения или занижения. Для достоверной проверки качества теста следует учитывать несколько показателей надежности, подсчитанных по разным формулам, лишь небольшая часть которых приведена в данном тексте. В качестве нижнего предела допустимых значений надежности обычно выбирают 0,7. При более низком значении использование теста вряд ли целесообразно в силу большой погрешности измерения.

Если тест разрабатывают профессионалы, то к нему предъявляют более жесткие требования. Как правило, тесты с надежностью менее 0,8 считаются непригодными в профессионально организованных службах и центрах тестирования. Значения коэффициента надежности, превышающие 0,9, говорят о высоком качестве теста. Они крайне желательны, но редко встречаются. Обычно в тестологической практике надежность тестов колеблется в интервале (0,8; 0,9). Коэффициент надежности, подсчитываемый по матрице тестовых результатов, всегда зависит от свойств выборки испытуемых. Поэтому при каждом очередном использовании теста приходится оценивать его надежность, а уж потом говорить о возможности интерпретации результатов выполнения теста.

6.5. Надежность и стандартная ошибка измерения

Один из аспектов применения коэффициента надежности связан с определением стандартной ошибки измерения. Для установления связи между стандартной ошибкой измерения и надежностью теста необходимо преобразовать формулу

и выделить в левой части SЕ2. После преобразования формулы относительно SЕ2 получится выражение SЕ2 = SX2 (1 – rн), или

где SX стандартное отклонение по распределению индивидуальных баллов; rн – коэффициент надежности теста; SE стандартная ошибка измерения. Это выражение обычно используется для вычисления SE по известным величинам rн и SX Что касается сущностного смысла, то SE (standard error of measurement) трактуется как стандартное отклонение результатов испытуемого от его истинного балла, полученное при выполнении им большого числа параллельных форм теста.

Для лучшего уяснения смысла показателя SE можно представить другую гипотетическую ситуацию, когда i-и испытуемый выполнял много раз один и тот же тест. Если предположить, что эффект запоминания отсутствует, то результаты тестирования образуют нормальное распределение вокруг истинного балла Тi со стандартным отклонением SE. На практике SE рассматривается как статистическая величина, отражающая степень точности отдельных измерений, поэтому величину SE используют для определения границ доверительного интервала, внутри которого должен находиться истинный балл оцениваемого ученика группы.

Построение доверительного интервала. Общераспространен подход, когда доверительный интервал выстраивается как две симметричные окрестности (левая и правая) вокруг наблюдаемого показателя ученика, хотя это не совсем верно, поскольку речь должна идти об окрестностях, расположенных слева и справа от истинного балла. Тем не менее этот факт вынуждено игнорируется в прикладных исследованиях в силу отсутствия истинного балла, и доверительный интервал при заданном риске допустить ошибку t =̣ 0,05, т.е. в пяти случаях из ста, принимается равным (Xi – 1,96SE; Xi + 1,96SE), где Χi наблюдаемый балл i-го испытуемого; 1,96 – константа, табличное число, используемое при t ≤ 0,05.

Для рассматриваемого ранее примера матрицы тестовых результатов (см. табл. 6.11), коэффициента надежности rн =̣ 0,78 и стандартного отклонения SX =̣ 2,62, вычисленного ранее для матрицы, SE будет равно

Тогда доверительный интервал для истинного балла первого ученика со значением Хi = 6 будет (6 – 1,23; 6 + 1,23) или (4,77; 7,23). Истинный балл первого ученика может находиться в любой точке этого интервала.

Интересна геометрическая интерпретация доверительного интервала на оси наблюдаемых баллов, приведенная для балла i-го учащегося. Очевидно, что с ростом SE границы доверительного интервала будут раздвигаться, и вместе с тем будут увеличиваться возможные пределы отклонения истинного балла от наблюдаемых результатов измерения (более правильная с точки зрения теории трактовка: пределы отклонения наблюдаемых баллов от истинной компоненты измерения).

6.6. Валидность гомогенных тестов

Валидность – это характеристика способности теста служить поставленной цели измерения. Как правило, постановка целей создания теста носит комплексный характер, поэтому часто стараются проверить валидность с разных позиций сообразно различным направлениям использования теста. Например, нормативно-ориентированный тест для приема абитуриентов в вузы должен служить цели дифференциации испытуемых и прогностическим целям, так как мало выделить лучших абитуриентов в момент приема, нужно также спрогнозировать успешность дальнейшего обучения зачисленных в вузы абитуриентов.

Оценивание валидности всегда проводится путем соотнесения характеристик результатов измерения с внешними критериями [ 1,28, 36]. В качестве таких критериев могут выступать оценки экспертов при анализе содержания теста и его адекватности целям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностическая валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой валидизации носит не практический, а методологический характер, поскольку она состоит в выборе значимого внешнего критерия.

При разработке аттестационных тестов, конечно, на первом плане находится содержательная валидность, которая определяется как характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям, умениям и требованиям ФГОС. Если тест позволяет проверить все то, что задумано авторами в спецификации и заложено в ФГОС, то он считается валидным относительно контролируемого содержания дисциплины и целей создания аттестационного теста. Представление о содержательной валидности не следует связывать только с полнотой отображения в тесте содержания требований ФГОС, необходимо также заботиться о правильности пропорций содержания теста. Если тест отображает второстепенные элементы содержания дисциплины вместо значимых разделов, то нельзя говорить о его высокой содержательной валидности.

Конечно, во всех случаях справедлив общий вывод – чем глубже и полнее отображение, тем выше уверенность в содержательной валидности теста. Однако при нормативно-ориентированном подходе есть свои особенности. Тест валиден по содержанию, если он обеспечивает высокую дифференциацию результатов испытуемых и в нем отображено все то главное, без чего нельзя говорить о знании курса. При этом отдельные содержательные разделы могут быть представлены фрагментарно, а другие и вовсе отсутствовать в тесте. Для повышения содержательной валидности в тест лучше включать задания, содержание которых не связано каким-либо заметным образом, и потому они не могут замещаться при проверке. При прочих равных условиях эта тенденция приведет к повышению полноты охвата содержания и, следовательно, к росту содержательной валидности теста. Таким образом, если речь идет о валидности, то конструктор заинтересован в выборе заданий с малыми коэффициентами интеркорреляции.

К противоположному выводу легко прийти, если стараться повысить надежность теста. Отбирая задания с большими коэффициентами интеркорреляции, можно обеспечить высокую однородность содержания и надежность теста. Это противоречие, отмеченное впервые Ф. Лордом [38], дает основание для возникновения серьезных проблем при конструировании теста. В частности, легко представить ситуацию разработки итогового теста по алгебре. Если включить в него только задания на решение уравнений одного вида, то можно достичь высокой надежности, близкой к 0,90. Однако, и это понятно без всяких объяснений, маловероятно, чтобы такой итоговый тест обладал приемлемой содержательной валидностью.

Таким образом, при конструировании гомогенного теста следует стремиться к повышению его надежности в разумных пределах, чтобы не снизить существенным образом содержательную валидность теста. Поэтому при отборе заданий в тест необходимо иметь четкое представление об их содержании и о множестве других факторов, а не просто отдавать предпочтение тем, которые высоко коррелируют друг с другом и обеспечивают хорошую надежность теста. Правда, по рассматриваемой выше проблеме есть другая точка зрения, принадлежащая Гилфорду и Ньюнелли [36]. Они полагают, что внутренняя согласованность теста является непременным условием его высокой содержательной валидности, и потому высокая надежность служит предпосылкой оптимальной валидности теста.

Кточке зрения Ф. Лорда присоединяются Кэттелл и Клайн [17]. По их мнению, максимум валидности может быть получен тогда, когда все задания слабо, но положительно коррелируют друг с другом, при этом каждое из них имеет высокую корреляцию с критерием по тесту. Поэтому повышению валидности способствует включение заданий, для которых характерны большие коэффициенты бисериальной корреляции с суммой баллов по тесту.

При количественных оценках валидности для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний учеников без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех. Если мера согласованности достаточно высока, то для оценки валидности используется формула

где ХiХ̅ – отклонение тестового балла i-го ученика от среднего балла по тесту; ХтiХ̅э отклонение балла i-го ученика у экспертов от Х̅э среднего арифметического экспертных оценок; SX2 дисперсия баллов учеников по тесту; Smx2 дисперсия баллов экспертов; m — число экспертов.


Бывают случаи, когда педагог заинтересован в оценке прогностической валидности, например, указывающей меру вероятности прогноза успешности профессиональной деятельности выпускника вуза по результатам выполнения теста. В этом случае результаты по тесту коррелируют с результатами аттестации молодых специалистов, проводимой на предприятиях и организациях в течение нескольких первых лет работы. Высокая корреляция означает, что разработанные тесты прогностичны для отбора лучших выпускников вуза, обладающих сформированными профессиональными компетенциями.

Выводы

В отличие от традиционных средств контроля тесты проходят процесс научного обоснования качества, предполагающий оценку соответствия характеристик тестов двум важнейшим критериям: надежности и валидности. Разработка тестов для принятия административно-управленческих решений в образовании требует длительного исследовательского периода, охватывающего в циклическом режиме все этапы создания теста.

Анализ эмпирических данных тестирования начинается с построения матрицы, отражающей взаимодействие испытуемых и заданий в процессе выполнения теста. Обработка данных матрицы в классической теории тестов основывается на дескриптивной статистике, анализ результатов обработки позволяет оценить качество тестовых заданий и всего теста.

Наибольшую трудность при создании теста представляет интерпретация результатов обработки эмпирических результатов тестирования, но только благодаря ей может быть достигнуто высокое качество теста. Полная стандартизация процедуры предъявления теста способствует повышению точности и созданию качественных тестов.

Для разработки аттестационных тестов в вузе рекомендуется использовать традиционную теорию тестов.

Практические задания и вопросы для обсуждения

В таблице приведены ответы 30 испытуемых на одно задание теста. Всех испытуемых можно разбить на две подгруппы, одна из которых содержит 15 испытуемых высокого уровня подготовленности, а другая – 15 человек низкого уровня подготовленности (сильная и слабая группа). По данным таблицы вычислите:

1 ) среднее значение тестовых баллов по сильной и по слабой группе, сравните их;

2) дисперсию баллов по всей группе (30 испытуемых);

3 ) долю правильных ответов на задание по сильной группе ( 15 испытуемых);

4) долю правильных ответов на задание по слабой группе (15 испытуемых);

5 ) корреляцию между ответами испытуемых на задание и суммой баллов по тесту для сильной группы;

6 ) корреляцию между ответами испытуемых на задание и суммой баллов по тесту для слабой группы.


7. Сертификация аттестационных тестов

7.1. Общие сведения о системе сертификации педагогических тестов

Источники повышения валидности теста:

     • подбор оптимальной трудности заданий для обеспечения нормального закона распределения баллов по тесту;

     • экспертиза качества содержания теста;

     • расчет оптимального времени выполнения теста;

     • подбор валидных заданий с высокой дискриминативностью.

Система добровольной сертификации (далее – Система) педагогических тестовых материалов (ПТМ) была создана на базе Исследовательского центра проблем качества подготовки специалистов Московского института стали и сплавов (технологического университета) приказом Министерства образования Российской Федерации от 17.04.2000 г. № 1122 «О сертификации качества педагогических тестовых материалов». Система получила регистрационный номер в реестре органов по сертификации Федерального агентства по техническому регулированию и метрологии (регистрационный № РОСС RU.B154.04TM00). Система сертификации функционирует с 2000 г.

Цель сертификации – повышение качества образования путем совершенствования ПТМ, применяемых для оценки знаний обучающихся методом тестирования в учебных заведениях Российской Федерации и других структурах системы образования. При этом решаются две задачи: первая – выявление и фиксация достигнутого уровня качества сертифицируемых ПТМ, вторая – разработка рекомендаций, определяющих методику совершенствования ПТМ.

Сертификация осуществляется специально созданным Центром сертификации качества педагогических тестовых материалов (далее – Центр сертификации), который также оказывает консультационные услуги по доведению характеристик ПТМ до уровня соответствия утвержденным требованиям к их качеству (Требования к качеству ПТМ). Требования к качеству ПТМ составляют нормативную базу Системы. Объективность и достоверность результатов сертификации обеспечивается участием в работах по сертификации ПТМ компетентных экспертов, рекомендованных учебно-методическими объединениями вузов, использованием научно обоснованных методик экспертизы качества ПТМ и профессиональных статистических пакетов для компьютерной обработки данных.

Система добровольной сертификации распространяется на все виды ПТМ, используемые для оценки знаний обучающихся во всех типах учебных заведений и других образовательных структурах Российской Федерации. Система добровольной сертификации распространяется на все виды ПТМ, используемые для оценки знаний обучающихся во всех типах учебных заведений и других образовательных структурах Российской Федерации. Согласно Правилам функционирования Системы объектами сертификации являются:

     • совокупности тестовых заданий, объединенные в варианты тестов и используемые для оценки знаний обучающихся;

     • компьютеризованные банки тестовых заданий;

     • совокупности тестовых методик, объединенные в технологии;

     • программно-инструментальные средства для генерации и предъявления традиционных и адаптивных тестов;

     • программные средства для математико-статистической обработки данных тестирования;

     • сопроводительные материалы, включающие спецификацию теста для бланковой или компьютерной формы представления, описание метода генерации варианта традиционного или адаптивного теста из банка данных, описание системы оценивания, включающее ключи правильных ответов, критерии или нормы оценивания, шкалы, описание процедур предъявления теста, проверки результатов тестирования и сообщения результатов испытуемым, а также другая продукция, относящаяся к категории педагогических тестовых материалов.

Центр сертификации вносит информацию в созданный в рамках Системы Федеральный реестр сертифицированных ПТМ с целью оказания посреднических услуг и предоставления заинтересованным лицам соответствующей информации о возможностях приобретения ПТМ у их авторов. Благодаря этому широкий круг заинтересованных учебных заведений имеет возможность приобрести сертифицированные ПТМ, обеспечивающие высокое качество результатов педагогических измерений.

Федеральный реестр сертифицированных ПТМ представляет собой специализированную базу данных, содержащую наиболее общую информацию о сертифицированных ПТМ (наименование дисциплины, специальность или направление подготовки, вид объекта сертификации, его предназначение и др.). Сведения о сертифицированных ПТМ вносятся в Федеральный реестр по желанию авторов ПТМ. Дополнительные сведения о сертифицированных ПТМ и контактная информацию об авторах ПТМ предоставляется Центром сертификации на платной основе по согласованию с авторами ПТМ. Соблюдение авторских прав является обязательным условием деятельности Центра сертификации.

7.2. Требования к качеству педагогических тестов

Требования к качеству ПТМ прошли длительный период обсуждения, в котором приняли участие представители различных учебных заведений и управленческих структур в сфере образования. Основное назначение требований к качеству ПТМ состоит в обеспечении информации о критериях качества тестовых материалов для разработчиков и пользователей ПТМ. Разработка требований к качеству ПТМ и их систематическое обновление является обязательной составляющей деятельности Системы.

По структуре требования к качеству ПТМ состоят из набора регламентированных характеристик, правил, методики критериев, которые ориентированы на различные виды ПТМ. Часть требований к качеству ПТМ носит описательный характер, другая выражается в виде количественных характеристик – критериев качества.

Выполнение всех требований к качеству ПТМ является обязательным, если ПТМ используются при аттестации выпускников и учебных заведений. При сертификации ПТМ для текущего контроля часть требований носит необязательный характер либо не выдвигается совсем. Таким образом, в зависимости от планируемой области применения определяется класс требований, на соответствие которым проверяются разработанные ПТМ. С повышением уровня ответственности при принятии управленческих решений на основе результатов использования ПТМ повышается жесткость требований к качеству, предъявляемых к представленным материалам, а также дополняется список информации, необходимой для проведения работ по сертификации.

При сертификации ПТМ используются требования к содержанию тестов, критерии качества содержания гомогенных тестов, критерии качества содержания гетерогенных тестов, требования к формам заданий тестов, требования к статистическим характеристикам заданий и тестов, требования к характеристикам заданий компьютеризованного банка ПТМ, требования к структуре банка и технологии компьютерной генерации вариантов ПТМ, требования к сопроводительным материалам ПТМ.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Следующая
  • 0 Оценок: 0

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.


Популярные книги за неделю


Рекомендации