Электронная библиотека » Марина Челышкова » » онлайн чтение - страница 6


  • Текст добавлен: 28 октября 2013, 20:24


Автор книги: Марина Челышкова


Жанр: Прочая образовательная литература, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 6 (всего у книги 17 страниц)

Шрифт:
- 100% +
2.3. Объективность педагогических измерений

На ранних этапах истории развития педагогических измерений объективность считали неотъемлемой характеристикой результатов тестирования, поскольку стандартизованная проверка результатов выполнения тестов исключала педагога из оценочного процесса. По мере развития теории и практики применения тестов пришло понимание того, что абсолютная объективность – это недостижимая характеристика результатов любых, в том числе и педагогических, измерений в силу существования неизбежных ошибочных компонентов. На результаты измерений воздействуют различные факторы случайного и систематического характера, которые неизбежно влияют на величину ошибочных компонентов, изменяя их как в сторону увеличения, так и уменьшения. Поэтому в оценочных процессах можно лишь говорить о высокой или низкой объективности, оценка которой основана на выявлении надежности результатов педагогических измерений.

Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Вебстера [10, 36]. Он был первым ученым, осуществившим методологические исследования в этой области и предложившим восемь толкований обсуждаемого термина, три из которых непосредственно относятся к педагогическим измерениям: процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность.

Под процедурной объективностью понимается независимость результатов измерения от условий его проведения и субъективных оценочных суждений педагога, использующего тест. Эта независимость обеспечивается благодаря равенству условий тестирования для всех студентов, отсутствию списывания или других нарушений дисциплины, правильному инструктированию студентов, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стандартизации процедуры проверки результатов и максимальной ее автоматизации. Чем выше уровень применения компьютерных технологий в тестировании, исключающих любое субъективное влияние педагога или экспертов, тем больше величина процедурной объективности результатов тестирования, получаемой при измерении.

Хотя процедурная объективность является наиболее понятной всем пользователям тестов и часто используется при обсуждении достоинств тестирования в средствах массовой информации, ограничиваться ею при оценивании точности измерений нельзя, поскольку при таком подходе не выдвигается никаких требований к качеству теста. Может создаться превратное впечатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаменов к любым наборам заданий в тестовой форме, устранив влияние педагога на оценку тестирования и поручив подсчет баллов испытуемых компьютерной программе.

Типичный пример подобного упрощенного толкования объективности встречается сейчас среди части педагогов, учащихся и их родителей в связи с проведением эксперимента по введению ЕГЭ. Широкий круг пользователей системы ЕГЭ не видит той работы профессионалов, которая стоит за созданием контрольно-измерительных материалов (КИМ), но в абсолютном большинстве своем полагает, что устранение педагогов из контрольно-оценочного процесса, сведение их участия к минимальному на этапе организации процедуры тестирования и выставления баллов позволяет говорить об объективности результатов ЕГЭ. На деле такое упрощенное толкование наносит вред развитию тестирования в России, поскольку допускает применение любых, в том числе некачественных, тестов. Оно не опирается на теорию педагогических измерений и лишь частично охватывает научные представления об объективности результатов выполнения теста.

Второе углубленное понимание объективности измерений основано на некоторых понятиях и аксиомах традиционной или, как ее называют иначе, классической теории тестирования. К числу таких понятий относится сырой (наблюдаемый, индивидуальный) балл, получаемый простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке результатов по заданиям (1 или 0) индивидуальный балл просто равен количеству правильно выполненных заданий теста. Другое понятие классической теории – истинный балл (параметр испытуемого) – отождествляется с абсолютно объективной оценкой испытуемого, свободной от влияния любых ошибок измерения. В отличие от наблюдаемого балла, который меняется в зависимости от теста и способа подсчета результата испытуемого, истинный балл трактуется как не зависящая от средств измерения константа учащегося, характеризующая оцениваемое свойство испытуемого в момент измерения с нулевой ошибкой измерения и меняющаяся в процессе обучения.

Согласно основной аксиоме классической теории тестов, предполагается, что любой наблюдаемый балл отличается от истинного на величину ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранные пределы точности измерений, говорят о высокой объективности результатов тестирования и принимают индивидуальные баллы испытуемых за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания величины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и характеристики самого теста. Если эти характеристики не удовлетворяют определенным требованиям к качеству измерителей, то ошибка измерения, как правило, становится слишком большой, превышающей допустимую погрешность измерения и не позволяющей говорить о высокой объективности полученных результатов выполнения теста.

Третья трактовка объективности лежит в области современной теории конструирования тестов Item Response Theory (IRT). Преимущества IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, обеспечивают достижение так называемой инвариантной объективности измерений, которая превышает объективность, обеспечиваемую при использовании классической теории тестов [28, 29, 31, 37].

Согласно основным положениям теории IRT, инвариантная объективность характеризуется тем, что на оценку каждого испытуемого выборки не влияют оценки других испытуемых и трудность заданий теста. Благодаря этому оценки подготовленности студентов, обладающие высокой инвариантной объективностью, будут более точными, чем те, которые получаются при использовании традиционной теории при конструировании и применении тестов.

Правда, достижение эффекта инвариантной объективности обеспечивается не автоматически при обработке результатов тестирования с помощью алгоритмов теории IRT. Оно реализуется благодаря применению специальных процедур подгонки данных тестирования к требованиям моделей теории IRT и длительной серьезной работе над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект специфической объективности обеспечивается слишком дорогим путем либо не реализуется вообще в силу недостаточно высокого качества теста.

2.4. Размерность пространства измерений

После постановки цели измерения выбирают одну (одномерный случай) или несколько (многомерный случай) переменных измерения. При объединении одномерного и многомерного случая для обозначения измеряемых характеристик часто используют обобщающий термин – «конструкт». Концептуальное определение переменных измерения и их числа до начала разработки теста отличается обманчивой легкостью. Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и способен на основании своего педагогического опыта точно подобрать задания, обеспечивающие оценивание конструкта. Можно так и остаться в заблуждении относительно того, что на деле измеряет тест, если не проверить соответствие задуманного конструкта и реальных результатов измерения.

Анализируют такое соответствие чаще всего с привлечением независимых экспертов до проведения тестирования, но, как правило, получают недостаточно достоверную информацию, поскольку объединение нескольких субъективных мнений не приводит к объективным выводам и суждениям. Практика измерений показывает, что априорное определение размерности, основанное на экспертном анализе концептуально выделенного конструкта, обычно оказывается недостаточным. Число априорно выделенных переменных измерения часто не подтверждается данными статистической обработки и интерпретации эмпирических результатов выполнения теста.

Каждый педагог вкладывает в оценивание учебных достижений обучаемых собственное понимание оптимального набора переменных измерения, характеризующих качество подготовленности по своей дисциплине, и, соответственно, свое видение размерности пространства измерений. Неоднозначность усугубляется по мере продвижения от начальных ступеней образования к более высоким. Если в школе и на начальных курсах высшего профессионального образования можно с определенной степенью общности считать уровень учебных достижений по дисциплине одномерным, то на старших курсах допущение об одномерности неправомерно в силу междисциплинарного характера содержания специальных дисциплин.

Хотя этап предварительной экспертизы качества содержания заданий обязателен при разработке теста, для детального выявления соответствия концептуальной и реальной переменных измерения необходим факторный и корреляционный анализ эмпирических данных тестирования, применяемый при оценивании конструктной валидности теста. Таким образом, понять, что же мы на самом деле измеряем, можно лишь после применения теста.

Выявление размерности конструкта – сложная задача, но ее решение необходимо, поскольку без знания размерности невозможно проведение надежных измерений и создание валидных тестов. Сложность процедуры установления размерности пространства измерений увеличивают проблемы, возникающие при переводе концептуальной переменной в область педагогических измерений, в силу неоднозначной трактовки и слабой операционализируемости (измеряемости) многих конструктов, характерных для образования и других социальных наук.

Пример такой неоднозначной трактовки приведен на рис. 2.2 (рисунок с третьей переменной).


Рис. 2.2. Пример неоднозначной трактовки конструкта


Процесс перевода латентных конструктов в эмпирические референты, сопровождающийся приданием оцениваемым латентным характеристикам формы, удобной для фиксации определенными правилами измерения, называется операционализацией. При педагогических измерениях в качестве конструктов обычно выступают знания, умения навыки, компетентности и так далее, которые в целом можно назвать обобщающим термином «учебные достижения».

В процессе операционализации происходит формирование набора эмпирических индикаторов, в роли которых выступают задания теста. Суммарный балл по правильно выполненным заданиям, подсчитанный и преобразованный по определенным правилам, дает основания для присвоения испытуемому определенного места на шкале переменной измерения. Результаты операционализации позволяют поставить в соответствие каждой точке оси латентной переменной определенный балл испытуемого, полученный путем тех или иных преобразований оценок по отдельным правильно выполненным заданиям теста.

Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 2.3. Каждая оценка переменной измерения для учащихся из тестируемой группы соответствует одной из точек оси. В свою очередь, каждая точка определяет положение испытуемого или группы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.


Рис. 2.3. Геометрическая интерпретация результата тестовых измерений


На изображенной оси более высокие баллы располагаются правее, низкие – левее. Крайний слева результат (не показанный на рисунке) обычно характерен для случая, когда испытуемый выполнил правильно лишь одно или несколько заданий теста. Обратный случай, когда студент справился со всеми или почти со всеми заданиями, соответствует крайней правой точке (не отмеченной на рисунке) на оси переменной измерения. Остальные точки занимают некоторое промежуточное положение на отрезке, где лежат тестовые баллы студентов.

Если соотнести правильно выполненные задания теста с результатами студентов и присвоить номера заданий по нарастанию трудности, расположив их вдоль оси переменной измерения, то естественно предположить, что более трудные задания будут смещены на оси вправо, так как их, скорее всего, будут выполнять правильно наиболее сильные студенты. Наоборот, более легкие задания будут смещены влево – они по силам студентам с низким уровнем подготовки (рис. 2.4).


Рис. 2.4. Соотношение между трудностью заданий и подготовленностью студентов: βj – уровень трудности j-го задания, j = 1, 2, …, 4, θ1 и θ2 – тестовые баллы двух студентов


Из дидактических соображений на рисунке приведено только четыре задания, однако все выводы, получаемые с помощью этого примера, применимы к любому числу заданий в тесте. Расположение тестового балла первого студента говорит о том, что он выполнил верно два самых легких задания, но не справился с третьим и четвертым заданиями. Второй студент имеет более высокий тестовый балл и подготовлен лучше. Он не выполнил только самое трудное четвертое задание теста.

Связь между заданиями различной трудности и оценками подготовленности студентов на оси переменной измерения, рассмотренная на рис. 2.4, является определенной идеализацией одномерного измерения. Расположение заданий по нарастанию трудности вдоль оси переменной измерения формально можно записать в виде β1 < β2 <…< βj < … βn–1 < βn , где j = 1, 2, …, n; n– число заданий в тесте, предположив, что речь идет не о четырех заданиях, а относится ко всему тесту.

В реальной ситуации тестирования локализация места расположения результата студента на оси переменной зависит от соотношения между величиной его истинного балла и трудностью заданий теста. Если балл студента довольно высок, а задание достаточно легкое, то у обучаемого есть все основания для успешного выполнения этого задания теста. В противном случае, когда соотношение между упомянутыми выше величинами меняется на противоположное, у студента есть веские основания для неуспеха. Конечно, наверняка предугадать ничего нельзя в силу действия различных смещающих факторов (эффект забывания, подсказки и т.д.). Поэтому при прогнозировании результата обычно говорят лишь о некоторой вероятности успеха или неуспеха обучаемого при выполнении заданий теста.

Таким образом, вероятностный характер наблюдаемых результатов выполнения теста обусловлен влиянием различных факторов, способствующих возникновению ошибок измерения. Среди них выделяют случайные и систематические. К числу последних принадлежат те, которые появляются из-за просчетов разработчиков в процессе создания теста. К ним могут привести нарушения требований методики сбора статистических данных, некачественная интерпретация результатов выполнения теста и ряд других причин. К случайным факторам относятся: настроение испытуемого, поведение экзаменатора, обстановка при тестировании в аудитории и многое другое – словом, все то, что учесть и предвидеть при тестировании невозможно.

Чаще всего при планировании измерений в образовании выбирают одномерные конструкты. Это упрощает процесс построения шкалы, но не всегда адекватно содержанию используемых или вновь создаваемых тестов. Рис. 2.5 иллюстрирует случай одномерных измерений, который в ситуации оценивания уровня подготовленности студентов можно интерпретировать следующим образом: одна латентная переменная Т – истинный уровень подготовленности каждого обучаемого при тестировании – приводит к возникновению одной оценки наблюдаемой переменной X — уровня подготовленности обучаемого. Помимо переменной Т, на оценки X оказывает влияние фактор Ε — ошибка измерения.


Рис. 2.5. Иллюстрация связи переменных при одномерном измерении


Чтобы принять гипотезу об одномерности теста, необходимо выявить связь между теоретическим конструктом и эмпирическими индикаторами, роль которых выполняют задания теста. Оценка связи требует ответа на вопрос: есть ли разница между доказательством одномерности конструкта и доказательством одномерности заданий теста?

На рис. 2.6 приведена измерительная модель для одномерного случая, иллюстрирующая связь между конструктом, обозначенным символом T, и четырьмя заданиями (x1, x2, x3, x4). Числа, стоящие у каждого луча, показывают меру предполагаемой корреляционной связи между конструктом и заданиями теста.


Рис. 2.6. Измерительная модель, иллюстрирующая связь между конструктом и заданиями теста (одномерный случай)


При анализе модели важно понимать, что конструкт является латентным (скрытым от возможностей непосредственного измерения) фактором, взаимодействие которого с заданиями порождает наблюдаемые результаты выполнения теста. Влияние конструкта, включающего одну или несколько латентных переменных измерения, на эмпирические индикаторы отражено на рассматриваемом рисунке с помощью направленных лучей.

Гипотетическая корреляционная матрица, показывающая меру связей между конструктом и заданиями теста, помещена в табл. 2.1. В силу симметрии чисел в матрице относительно главной диагонали, состоящей из единиц, таблица имеет треугольный вид.


Таблица 2.1 Значения корреляции между заданиями


Для анализа связи между размерностью конструкта и размерностью тестовых заданий, используемых при оценивании наблюдаемых переменных, необходимо подсчитать частные корреляции, получаемые путем удаления влияния на парные корреляции третьей переменной. Используя величины корреляций в табл. 2.1 и упомянутый подход, можно показать, что частная корреляция между любой парой наблюдаемых переменных x1, x2, x3 после удаления влияния латентной переменной T будет равна нулю.

Аналогичные вычисления можно провести для любой пары наблюдаемых переменных x1, x2, x3. Интерпретируя полученные нулевые результаты для анализа связи переменных, можно утверждать, что после удаления эффекта влияния фактора T связь между наблюдаемыми переменными исчезает. Таким образом, латентный фактор T является единственной переменной, связывающей наблюдаемые переменные x1, x2, x3, поэтому его следует трактовать как единственный общий фактор для совокупности наблюдаемых переменных. Отсюда следует вывод об одномерности совокупности заданий x1x3, поскольку корреляция между ними после удаления влияния общего фактора становится равной нулю.

Подобный концептуальный подход к доказательству одномерности был предложен Макдональдом и Хати (McDonald, 1981; Hattie, 1985) [38]. Конечно, на практике при анализе размерности пространства измерений говорить о точном равенстве нулю частных корреляций не приходится в силу влияния различных ошибок измерения. Однако в случае близких к нулю значений частных корреляций по результатам педагогических измерений можно строить единственную шкалу. Поскольку каждое задание в рассмотренном гипотетическом примере измеряет один и только один конструкт, то справедлив вывод об одномерности заданий теста. Обратный вывод в общем случае не верен: из одномерности заданий не следует одномерность теста. Совокупность одномерных заданий, каждое из которых измеряет свой конструкт, не означает наличия общего единственного фактора, свидетельствующего об одномерности пространства измерений.

Если конструкт включает не одну, а несколько переменных, то измерения называют многомерными. Такая ситуация как раз характерна при разработке и использовании компетентностных тестов. Совокупность переменных образует пространство переменных измерения, размерность которого равна их числу. Геометрическая интерпретация двумерных измерений приведена на рис. 2.7. Рисунок изображает частный случай, когда каждая из латентных переменных F1 и F2 воздействует на обе наблюдаемые переменные Х1 и Х2, находящиеся под влиянием ошибок измерения E1 и E2.


Рис. 2.7. Иллюстрация связи переменных при двумерном измерении


Возможны, конечно, другие ситуации, в которых каждая из латентных переменных F1 и F2 воздействует только на одну из переменных X1 и X2, либо только одна из латентных переменных приводит к возникновению двух наблюдаемых.

Многомерность требует построения по результатам измерения не одной, а нескольких шкал, количество которых должно быть равно размерности пространства измерений. Иногда при проведении многомерных измерений создают несколько субтестов, каждый из которых является одномерным и измеряет свою переменную с помощью одномерных заданий. Примером такого подхода является полидисциплинарный тест, состоящий из набора одномерных субтестов. В другом случае разрабатывают междисциплинарный тест, задания которого не являются одномерными. Каждое из заданий измеряет свою совокупность переменных, которые могут отличаться как по количеству, так и по содержательной трактовке конструкта.

В практике педагогических измерений существуют специальные методы анализа размерности пространства измерений. Такую группу методов предоставляет исследовательский и конфирматорный факторный анализ, применение аппарата которого основано на использовании соответствующего программного обеспечения, например статистического пакета SPSS и др. [43].


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Следующая
  • 0 Оценок: 0

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.


Популярные книги за неделю


Рекомендации