Электронная библиотека » Надежда Ефремова » » онлайн чтение - страница 11


  • Текст добавлен: 25 февраля 2014, 20:19


Автор книги: Надежда Ефремова


Жанр: Прочая образовательная литература, Наука и Образование


сообщить о неприемлемом содержимом

Текущая страница: 11 (всего у книги 28 страниц)

Шрифт:
- 100% +

Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:

• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;

• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;

• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).

Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).

Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, «валидность – ахиллесова пята тестирования» [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:

• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;

• прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].

Различают понятия валидности по «содержанию, критериаль–ности, конкурентности и т.д.» [134].

Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).

Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.

Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.

К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:

• функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;

• критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.

Построение числовой системы, в которой отношения между различными объектами тестирования выражены свойствами числового ряда, называется шкалированием. Для шкалирования результатов тестирования важное значение имеет структура нормативной выборки, представляющей группу тестируемых, содержащую представителей всех наиболее значимых страт, реально отражающих те же пропорции, что и выборка испытуемых. Преобразование шкал на основе анализа статистических результатов нормативной выборки «позволяет повысить качество педагогических измерений и выставить каждому испытуемому тестовый балл вне зависимости от того, в какой группе и над каким вариантом теста он работал» [190]. Эта процедура в настоящее время находится на стадии совершенствования и вызывает достаточно много споров.

В практике массового тестирования в качестве нормативной используется генеральная выборка, включающая всех обучающихся, участвующих в тестировании по данной учебной дисциплине. В сертификатах тестирования помимо тестового балла может быть указан рейтинг учащегося, который определяет место (ранг) тестируемого среди всех участников. Это, например, дает возможность выпускнику оценить свои конкурентные (конкурсные) возможности. При систематическом тестовом контроле появляется возможность по среднему рейтингу обучающихся формировать рейтинг образовательного учреждения, по рейтингу абитуриентов – рейтинг вузов. Все это может обеспечить условия для открытости всей системы образования. При этом пользователями результатов тестирования могут быть не только обучающиеся, но и родители, учителя, руководители общеобразовательных учреждений, органы управления образованием всех уровней и др.

Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129—131, 192]. Само понятие образовательная статистика может быть раскрыто как совокупность статистических показателей подготовленности различных выборок учащихся по результатам массового независимого тестирования.

В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.

Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации контрольно–оценочных материалов, описанию форм, методов и процедур тестового контроля, а также методов анализа результатов, полученных на основе мониторинга учебных достижений школьников. Методологию современного педагогического тестирования можно определить как учение об основных положениях, формах, методах, принципах научного исследования и организации практики педагогического контроля и оценки уровня подготовленности обучающихся. Принципы научной организации тестового контроля, выработанные на основе обобщения зарубежного и отечественного передового опыта, формулируются в виде свода правил, способствующих повышению эффективности тестирования.

3.3. Основы конструирования тестов как контрольных измерительных материалов

Попытки ученых преодолеть многочисленные недостатки классической теории тестов для повышения точности измерений и оптимизации процедур контроля за счет адаптации трудности теста к уровню подготовленности учащегося позволили развить IRT и визуализировать формальные характеристики тестовых заданий, другими словами, позволили увидеть, как работают задания методами графических построений. Благодаря использованию математического аппарата и итерационных процессов (уточнений при последовательных испытаниях) теория IRT позволяет перейти от оценки внешних признаков, выявляемых экзаменаторами (наблюдаемых результатов выполнения задания), к оценкам латентных (скрытых, внутренних) параметров подготовленности испытуемых, обусловливающих некие константы состояния обучаемых (подготовленности) на момент измерения их знаний [238, 242]. Особенностью педагогических измерений по теории IRT является специфическая объективность результатов, связанная с тем, что на оценку испытуемого не влияют оценки других тестируемых данной выборки. Это связано со свойствами инструментария, обусловленными соответствующим подбором тестовых заданий определенного уровня трудности, и использованием специальных процедур шкалирования и оценивания в соответствии с используемыми моделями.

Поисками таких моделей занимались многие зарубежные математики, среди которых особо следует отметить работы Д. Батесона и других (D. Bateson, C. Nikol, T. Achroeder) [228], Р. Берка (R. Berk) [229], А. Бинета и Т. Симона (A. Binet and T. Simon) [230], А. Бирнбаума (A. Birnbaum) [231], Б. Блума (B. Bloom) [232], Я. Кевиса (J. Keeves) [238], К. Лорда (K. Lord) [241 —244], Г. Раша (G. Rasch) [247 —249], Д. Вайса и Г. Кинсбери (D.J. Weiss, G.G. Kingsbury) [252]. Применение этих моделей в отечественной практике тестирования изложено в работах В.С. Аванесова [1], М.Б.Челышковой [195—200], Ю.М.Неймана и В.А.Хлебникова [134], других авторов.

Использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет устранить многие трудности. В рамках IRT оценки качества подготовленности испытуемых можно отождествлять с модифицированными результатами тестовых измерений. При этом, казалось бы, совсем разные понятия «качество» и «количество» не противопоставляются друг другу, а, по определению М.Б. Челышковой и Г.С. Ковалевой, «вкладываются один в другой как показатели интенсивности проявления качества» [199]. Это позволяет представить образовательный процесс в качественных показателях и своевременно корректировать его.

Для решения задач педагогического измерения плодотворным явилось определение знания как объективно и субъективно достаточного признака истинности или проявления логического суждения. При этом латентно–структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) испытуемого посредством математических моделей измерения и статистической обработки полученных результатов. IRT представляет некоторое структурное построение или математическую модель, позволяющую соединить между собой несколько латентных переменных. В соответствии с положениями латентно–структурного анализа оценки испытуемых учитывают уровень трудности используемых при тестировании заданий и выдаются в виде тестовых баллов, рассчитанных с помощью математических моделей. В зависимости от числа оцениваемых параметров тестируемых различают несколько видов математических моделей современных тестов: однопараметрическую, двух–параметрическую, трехпараметрическую и др. Качество тестов, конструируемых на основе этих моделей, значительно улучшается, задания подбираются таким образом, чтобы обеспечить возможность проявления испытуемыми не только знаний, умений и навыков, но и других характеристик, проверка которых может быть заложена в спецификациях тестов.

В IRT вводится представление о существовании взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых, такими как уровень учебных достижений по предмету на момент тестирования. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное наблюдаемое число Xi, в IRT латентный параметр трактуется как некоторая переменная (латентная переменная), начальное значение которой получается непосредственно из эмпирических данных тестирования (например, первичный балл). При этом латентные параметры (уровень подготовленности испытуемого θi и уровень трудности задания βj) рассматриваются как результат взаимодействия двух множеств значений, порождающих наблюдаемые итоги выполнения теста. Элементами первого множества являются значения латентного параметра θi – уровня знаний N испытуемый: (i = 1, 2, …, N). Второе множество образуют значения латентного параметра βi, соответствующего разной трудности заданий теста (j = 1, 2, …, n). На практике всегда ставится задача оценить по ответам испытуемых значения параметров θ и β. Для ее решения выбирается вид соотношения между этими параметрами (математическая модель).

Оказалось, что эмпирически наблюдаемые результаты Xi и соответствующие им латентные значения уровня подготовленности испытуемых θi связаны нелинейно. Переменный характер измеряемой величины трудности задания βj также указывает на возможность последовательного приближения ее к объективным оценкам параметров при помощи итеративных методов в процессе апробации. Выбором математической модели установливается взаимосвязь между эмпирическими результатами тестирования и значениями латентных переменных: θ – уровень знаний испытуемых и β – уровень трудности задания.

Однопараметрическая модель датского математика Г. Раша (G. Rasch) устанавливает зависимость между уровнем подготовленности испытуемого (θi) и трудностью заданий (βj) [248]. Он предложил ввести это соотношение в виде разности между параметром уровня знаний испытуемых и параметром трудности заданий теста: θi−βj. При этом предполагается, что оба параметра оцениваются на одной и той же шкале логитов. Функция успеха, или вероятность правильного ответа Рj(θ) при тестировании задается простой логистической моделью:


где параметром является разность (θ−βj), абсолютная величина которой представляет в логитах расстояние между уровнем знаний данного испытуемого и уровнем трудности данного задания. Если эта разность велика и отрицательна, то такое трудное задание бесполезно для измерения уровня знаний данного тестируемого, в то же время если эта разность велика и положительна, то задание тоже не представляет интереса, оно неэффективно, так как такой уровень трудности данным тестируемым уже хорошо освоен.

Из логистической функции видно, что Pj(θ) растет с ростом параметра θ испытуемых, так как чем выше уровень знаний тестируемых, тем выше вероятность правильного ответа на–е задание теста. Взаимосвязь между этими параметрами хорошо просматривается по характеристической кривой–го задания теста, вид которой представлен на рис. 7. Точка перегиба соответствует равенству уровня знаний тестируемого и уровня трудности тестового задания, θ=βj, вероятность правильного ответа при этом равна 0,5. Вероятность правильного ответа для хорошо подготовленных испытуемых стремится к 1, а для плохо подготовленных – к 0. Увеличение трудности задания на некоторую константу с > 0 смещает характеристическую кривую вправо, с прежней вероятностью на такое задание теперь сможет ответить тестируемый с другим уровнем знаний, равным (θ + с).

В однопараметрической модели вероятность правильного ответа на задания выражается посредством логистической функции, после введения которой симметрично возникла математическая модель, описывающая вероятность правильного ответа в зависимости от трудности заданий [196]. Аналогично по формуле рассчитывается вероятность Рi(β) правильного ответа i – го испытуемого на разные по трудности задания теста:



Рис. 7. Характеристическая кривая тестового задания



Вероятность правильного выполнения i-м испытуемым будет убывающей функцией в зависимости от трудности заданий. График функции Рi(β), или график индивидуальной кривой испытуемого, показан на рис. 8.



Рис. 8. Индивидуальная кривая испытуемого: а – теоретическая, уровень знаний 0,5; б – эмпирическая, уровень знаний 0,6

В точке перегиба кривой вероятность правильного ответа, как и на характеристической кривой задания, равна 0,5. В процессе обучения, по мере накопления знаний, индивидуальная кривая испытуемого смещается вправо.

Двухпараметрическая модель А. Бирнбаума (А. Birnbaum) [231] была получена путем добавления к параметрам трудности заданий теста их дифференцирующей способности ?. В последнее время обработку эмпирических данных рекомендуется проводить на основе двухпараметрической модели, чтобы кроме латентного параметра трудности заданий теста можно было бы в широком диапазоне дифференцировать уровни знаний разных учащихся. Дифференцирующая способность является одной из важных характеристик заданий теста и определяется разностью долей правильных ответов слабой и сильной частей испытуемых в группе достаточно большой выборки (около 100 человек). Методика расчета достаточно проста: берут 27% испытуемых, имеющих наибольшие баллы, и 27% имеющих низкие баллы, считают долю правильных ответов в каждой группе рл и рх . Затем определяют дифференцирующую способность для каждого задания данного теста: αj= pл− px.

Например: на одно из заданий среди лучших правильно ответили 30 испытуемых из 40 (рл = 3/4), а среди худших правильный ответ у 10 из 40 х = 1/4), из чего следует, что αj = 1/2. Для других заданий расчеты делаются аналогично. Отметим, что для всех заданий теста значения дифференцирующей способности находятся в пределах от–1 до +1.

Вероятность правильного ответа на . – е задание в модели Бирнбаума записывается так:


где θ – уровень знаний тестируемых (переменная); β – трудность j – го задания; – параметр, характеризующий дифференцирующую способность j – го задания; (θ – βj) – разность на шкале логитов между уровнем знаний учащегося и уровнем трудности j–го задания. При геометрической интерпретации его связывают с крутизной характеристической кривой в точке перегиба: чем круче кривая, тем больше дифференцирующая способность задания.

Совершенствование модели привело А. Бирнбаума к необходимости введения третьего параметра, учитывающего фактор угадывания правильного ответа. Новая модель стала называться логистической трехпараметрической. Ввиду большой сложности конструирования такого теста и статистической обработки результатов она не получила широкого распространения, так же как и метод наибольшего правдоподобия и метод моментов [250].

Для моделирования теста и, тем более, для создания системы адаптивного тестового контроля важную роль играет информационная функция теста, позволяющая задать на оси латентной переменной (логистической шкале) интервал, в котором проводится измерение уровня подготовки испытуемых. Бирнбаумом она представлена в виде


где Ij (θ) – информационная функция; θ – уровень знаний испытуемого, латентная переменная; Pj(θ) – вероятность правильного ответа на задание j; Q. (θ) = 1—Pj(θ), Q – вероятность неправильного ответа на задание j; n – число заданий в тесте;


Информационная функция задает интервал, в котором работает данное задание, чем меньше этот интервал и круче характеристическая кривая, тем выше информативность и дифференцирующая способность такого задания. Это утверждение привносит дополнительные возможности в отбор заданий при формировании теста, позволяя варьировать диапазон заданий на шкале логитов. Введение информационной функции позволяет оценить точность педагогических измерений. Информативность задания обратно пропорциональна ошибке измерения, следовательно, речь может идти о дифференцированной оценке точности, обеспечиваемой j – м заданием теста данного уровня подготовленности θi.Каждому уровню подготовленности в соответствие ставится количество получаемой при измерении информации. Отсюда следует, что наиболее информативно измерение подготовленности i-го испытуемого будет j – м тестовым заданием с уровнем трудности в точке перегиба при равенстве θij. Таким образом, чем ближе значение разности (θi−βj) к нулю, тем эффективнее подобрано задание и меньше стандартная ошибка измерения уровня подготовленности испытуемого.

Для получения качественного теста необходима его апробация на предмет получения статистических характеристик, выявления трудности заданий, их дифференцирующей способности, характеристик теста в целом. Поэтому требуется проведение апроба–ционных тестирований, проверки трудности теста на выборках генеральной совокупности для выявления устойчивости показателей. После проведения апробационного тестирования выполняется математико–статистическая обработка результатов испытания, которая состоит из нескольких этапов.

Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения i-м испытуемым j – го задания обозначим Xij. Она может принимать значения 1 или 0, при этом i = 1, 2, …, N,, где N – число учащихся или студентов; а j = 1, 2, …, n, где n – количество заданий в тесте. Из значений Xij составляют матрицу эмпирических данных. Строки матрицы состоят из нулей и единиц, соответствующих ответам разных испытуемых, по столбцам располагаются профили ответов на каждое задание, т.е. столбцов должно быть столько, сколько заданий в тесте – n, а строк – сколько испытуемых – N. Матрицу данных тестирования (столбцы – число правильных ответов на каждое задание теста Rj, строки – правильные ответы тестируемых) упорядочивают, располагая Rj в порядке убывания результата. Строки матрицы меняют так, чтобы верхняя соответствовала обучаемому с минимальным индивидуальным тестовым баллом Xi.

По такой упорядоченной матрице рассчитываются доли правильных рi и неправильных qi ответов испытуемых:

pi = X i /n, qi = 1 – Pi , где (i= 1, 2, …, N).

Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:

Pj = Rj /N и qj = 1 – Pj , где (j= 1, 2, …, n).

Сначала рассчитывается первичный балл каждого тестируемого:


являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:


Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания Rj удобен до тех пор, пока число испытуемых N в разных группах остается неизменным. Если в группах число испытуемых меняется, то необходимо пользоваться нормированным статистическим показателем трудности Pj , он не зависит от N и характеризует долю правильных ответов:


Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.

Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.

После этого определяются значения дифференцирующей способности αj, как это было указано ранее. Найденные для всех заданий значения αj позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра θ. В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.

Аналогично проводится определение начального значения латентного параметра трудности задания βj по значению Rj. Затем вычисляются стандартные ошибки измерений θ и β, строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].

Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.

Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия



прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов i – го испытуемого; N – число испытуемых).



Рис. 9. Динамика информационной функции теста J(θ) – информационная функция; θ – уровень знаний

Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.

Для обработки статистических данных по результатам применения теста необходимо использовать ту же модель, что и при конструировании теста. Благодаря свойству инвариантности устойчивые оценки параметров тестовых заданий в IRT получаются на любой репрезентативной выборке (порядка 200 человек), даже если она существенно отличается от планируемой. На В –оси латентной переменной – информационная функция в пределах от–3 до +3 логитов соответствует диапазону оценки уровня знаний, определяемого нормативно–ориентированными тестами.

Следует обратить внимание на то, что при одной и той же спецификации заполнение области кривой под целевой информационной функцией может быть получено разными способами за счет использования разных по трудности тестовых заданий. В разрабатываемом тесте задания варьируются по трудности и дифференцирующей способности на основе одной и той же спецификации теста. Это особенно следует учитывать при создании параллельных тестов, когда крайне важно обеспечить равную трудность различных вариантов в соответствующих точках на оси переменной измерения, при переработках теста, исследованиях эффективности различных форм тестовых заданий, сопоставлении методов отбора заданий из банка и в других случаях. Поэтому необходимы сопоставление эффективности различных тестов и выбор оптимального набора заданий, обеспечивающих планируемые свойства теста.

Надежность теста снижается при подборе преимущественно легких или трудных заданий, кроме того, тест не отражает содержание учебной дисциплины. Наибольшей могла бы быть надежность теста, составленного из средних по трудности заданий, однако тогда снижаются содержательная валидность и дифференцирующая способность теста. В свою очередь, стремление поднять валидность может привести к снижению надежности. В теории конструирования тестов этот случай достаточно подробно описан Ф. Лордом (F.M. Lord) [242].

Подбор заданий сбалансированной сложности позволяет удовлетворить требованиям оптимальной надежности и валид–ности теста. Расчет надежности достаточно сложен, а поэтому для практических целей рекомендуется более простой метод. Проводится повторное тестирование испытуемых в одинаковых условиях по одним и тем же тестам, а потом выполняется проверка на коррелирование результатов. При значениях корреляции 0,9 и выше надежность отличная; от 0,85 до 0,89 – очень хорошая; от 0,8 до 0,84 – хорошая; далее – удовлетворительная; ниже 0,5 – неудовлетворительная. В практике применяется очень мало тестов, имеющих надежность 0,8 [2].

Валидность как пригодность тестов может быть определена экспертами – опытными преподавателями. При этом важно оценить, находятся ли задания в соответствии с программой, полностью ли ее охватывают, соответствуют ли стандарту. В итоге должно быть заключение, пригоден ли тест для оценки уровня подготовки учащихся по конкретной дисциплине (теме, разделу). Если тест по каким–либо параметрам не устраивает разработчика, то вся процедура его конструирования и параметризации повторяется заново. Это достаточно трудоемкая работа, но именно она обеспечивает качество педагогического измерителя.

Использование большого количества вариантов одного и того же теста и возможность статистической обработки результатов такого тестирования в рамках теории моделирования и параметризации педагогических тестов позволяют получать оценки латентных параметров знаний испытуемых на метрической шкале и сравнивать их между собой для разных выборок испытуемых. Однако, учитывая, что создание параллельных, одинаковых по трудности вариантов практически невозможно, используется методика выравнивания за счет введения во все варианты теста некоторого количества абсолютно одинаковых заданий – узлов, отвечающих определенным требованиям. Это позволяет определять начало метрической шкалы, переносить оценки всех испытуемых на единую шкалу и определять каждому участнику тестирования сертификационный балл. Для этого соответствующие оценки уровня подготовленности испытуемых путем линейных преобразований переводятся на множество натуральных чисел от 1 до 100 (100–балльную шкалу).


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 | Следующая
  • 0 Оценок: 0

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.


Популярные книги за неделю


Рекомендации