Текст книги "Контроль качества обучения при аттестации: компетентностный подход"

Текст добавлен: 28 октября 2013, 20:24

Автор книги: Марина Челышкова

Жанр: Прочая образовательная литература, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 13 (всего у книги 17 страниц)

Скачать книгу

Шрифт:

- 100% +

5.5. Задания на установление правильной последовательности

Тестовые задания четвертой формы предназначены для оценки уровня владения последовательностью действий, процессов и т.п. В таких заданиях в произвольном порядке приводятся элементы, связанные с определенной задачей, а испытуемый должен установить правильный порядок предложенных элементов и указать его заданным способом в специально отведенном для этого месте.

Стандартная инструкция к заданиям четвертой формы имеет вид: «УСТАНОВИТЕ ПРАВИЛЬНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ». Иногда инструкцию включают в текст задания.

Задание 1

РАСПОЛОЖИТЕ ИМЕНА РУССКИХ ПОЛКОВОДЦЕВ В ХРОНОЛОГИЧЕСКОЙ ПОСЛЕДОВАТЕЛЬНОСТИ ИХ ДЕЯТЕЛЬНОСТИ. ЗАПИШИТЕ БУКВЫ, КОТОРЫМИ ОБОЗНАЧЕНЫ ИМЕНА, В ПРАВИЛЬНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ В ПРИВЕДЕННУЮ В ТЕКСТЕ ЗАДАНИЯ ТАБЛИЦУ, А ЗАТЕМ ПЕРЕНЕСИТЕ ИХ В БЛАНК.

A) Дмитрий Пожарский

Б) Алексей Ермолов

B) Михаил Скобелев

Г) Алексей Орлов

Задание 2

УСТАНОВИТЕ ПРАВИЛЬНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ МЕХАНИЗМА ВЫДОХА, РАССТАВИВ НОМЕРА В ОТВЕДЕННЫХ МЕСТАХ:

⁫ – спадение легких

⁫ – торможение центра дыхательных мышц в спинном мозге

⁫ – возбуждение центра выдоха в продолговатом мозге

⁫ – расслабление диафрагмы и вспомогательных мышц

⁫ – уменьшение грудной полости

Во многих случаях задания на установление правильной последовательности крайне нетехнологичны либо не применимы в силу специфики содержания предмета. Они громоздки и нередко допускают неоднозначную последовательность ответов, поэтому не рекомендуются к использованию в аттестационных тестах.

5.6. Сравнительная характеристика форм тестовых заданий

В процессе разработки теста у автора всегда возникает вопрос: остановиться ли на какой-нибудь одной форме заданий либо принять решение о совмещении различных форм в одном тесте? А если остановиться на одной, то какой отдать предпочтение? Выбор автора во многом определяется спецификой содержания учебной дисциплины, целями создания и применения теста. Немало здесь зависит от технологии проверки, сбора и обработки эмпирических данных, от технического и материального обеспечения процесса применения теста. Легко организовать компьютеризованный сбор и анализ результатов выполнения теста в том случае, когда все задания с выбором ответов.

Результаты выполнения заданий с конструируемыми ответами требуют ручной обработки. Как правило, для оценки результатов их выполнения приходится привлекать экспертов, а это требует дополнительных материальных затрат и времени на проверку.

Преимущества и недостатки различных форм заданий

1. Задания с двумя ответами

Преимущества: благодаря краткости позволяют охватить большой объем материала, легко разрабатываются (только один дистрактор), быстро с высокой объективностью обрабатываются результаты выполнения.

Недостатки: стимулируют механическое запоминание, поощряют угадывание, требуют увеличения количества заданий и, соответственно, времени тестирования для компенсации эффекта угадывания.

2. Задания с выбором из четырех-пяти ответов

Преимущества: годятся для самых различных учебных предметов, в силу краткости формулировок в тесте можно охватить большой объем содержания, обеспечивают возможность автоматизированной проверки и высокую объективность оценок студентов, позволяют провести развернутый статистический анализ своих характеристик, скорректировать их и значительно повысить надежность педагогических измерений.

Недостатки: требуют значительной работы авторов при выборе дистракторов и коррекции баллов студентов, не годятся для проверки продуктивного уровня деятельности и когнитивных умений.

3. Задания с конструируемыми регламентированными ответами

Преимущества: просты в разработке, исключено угадывание, частично годятся для автоматизированной проверки.

Недостатки: проверяют в основном знание фактологического материала или понятийного аппарата, обычно (в гуманитарных предметах) слишком легкие, иногда приводят к неоднозначным правильным и частично правильным ответам.

4. Задания со свободно конструируемыми ответами

Преимущества: позволяют оценивать сложные учебные достижения, в том числе коммуникативные умения, творческий уровень деятельности, легко формулируются как традиционные задания, исключают угадывание.

Недостатки: требуют длительной дорогостоящей процедуры проверки, значительного времени выполнения, не позволяют охватить значительный объем содержания предмета, снижают надежность педагогических измерений.

5. Задания на соответствие

Преимущества: просты в разработке, идеально подходят для оценивания ассоциативных знаний и проведения текущего контроля, уменьшают эффект угадывания.

Недостатки: чаще всего используются при проверке репродуктивного уровня деятельности и алгоритмических умений, громоздки по форме представления.

Сравнительная характеристика технологических свойств различных тестовых форм представлена в табл. 5.1.

Таблица 5.1 Сравнительные технологические характеристики форм

Выводы

Выбор формы предтестовых заданий определяется спецификой контролируемого содержания и целями создания теста. Каждая форма заданий имеет свои достоинства и недостатки, свою сферу применения.

Разработка предтестовых заданий проводится сообразно стандартизованным требованиям, содержание которых зависит от специфики тестовой формы. Задания с выбором ответов наиболее удобны при итоговом контроле в силу ряда технологических преимуществ, повышающих эффективность процессов применения итогового теста и оценки результатов студентов. Задания на дополнение предпочтительны при обучающем контроле.

Современные тенденции в разработке итоговых тестов связаны с отходом от моноформности и широким использованием заданий на дополнение, поскольку многообразие проверяемых знаний и умений требует введения различных форм в тесте.

Практические задания и вопросы для обсуждения

1. Обведите номер правильного ответа.

Тестовые задания с двумя ответами эффективнее использовать в контроле:

1) текущем

2) тематическом

3) итоговом

4) входном

2. Обведите номер правильного ответа.

Открытая форма заданий рекомендуется для контроля:

1) текущего

2) итогового

3) входного

3. Обведите номер правильного ответа.

Вероятность угадывания номера места правильного ответа в задании с пятью дистракторами будет:

1) 0,2

2) 0,66666

3) 0,5

4) 0,666666

4. Найдите два существенных недостатка в задании, переформулируйте задание для устранения недостатков.

Для какого класса животных характерны признаки: хладнокровные, обитающие в воде и на суше, размножаются в воде?

1. Класс рыб

2. Класс пресмыкающихся

3. Класс земноводных

4. Класс млекопитающих

5. Предложите метод улучшения формулировки заданий.

Что из нижеперечисленного было ликвидировано реформами 60-х годов XIX века в России?

1. Самодержавие

2. Крепостничество

3. Сословность

4. Помещичья собственность на землю

5. Национальный гнет

6. Статистический анализ качества тестовых заданий и тестов

6.1. Классическая теория и методики конструирования тестов

Понятие истинного балла (true score) – параметра испытуемого – является основополагающим в педагогических измерениях наряду с терминами «сырой балл»и «наблюдаемый балл», которые получаются простым суммированием оценок по отдельным заданиям теста. Нередко истинный балл называют константой испытуемого в момент измерения, не зависящей от средства измерения. Поэтому при одномерных измерениях каждому испытуемому можно поставить в соответствие только один истинный балл в отличие от наблюдаемых баллов, которых может быть столько, сколько используемых для измерения этой переменной тестов.

Получение наиболее точной оценки параметра подготовленности испытуемых – главная цель каждого, кто создает или применяет педагогический тест, поскольку любые результаты тестирования всегда содержат в себе ошибочные компоненты измерения. По этой причине при создании тесты проходят процесс научного обоснования качества, который нацелен на улучшение характеристик заданий для повышения точности тестовых баллов. Этот процесс основывается на математико-статистическом аппарате классической или современной теории тестов (Item Response Theory) [1, 28, 35, 37]. Современная теория достаточно сложна, обычно она применяется профессиональными тестовыми службами для больших выборок испытуемых (более 1000 человек на вариант) и требует значительных трудозатрат при обработке и интерпретации данных для коррекции тестов. Классическую теорию используют значительно чаще, особенно при небольших выборках в 50–100 человек на каждый вариант теста. Если сразу затруднительно собрать даже столько данных, то их нужно накапливать на протяжении нескольких лет, поскольку меньшие выборки при разработке итогового теста нежелательны.

Математико-статистическая обработка обычно проводится с помощью специального программного обеспечения, но хотя бы один раз ее стоит проделать вручную, чтобы понять смысл некоторых показателей качества теста.

6.2. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов

Если за каждый правильный ответ на задание испытуемому давать 1 балл, а за неправильный ответ или пропуск задания – 0 баллов, то профиль ответов студента будет иметь вид последовательности из единиц и нулей. Поскольку каждая единица или нуль появляются в результате взаимодействия испытуемого с заданием, то наиболее адекватной формой представления наблюдаемых результатов выполнения теста служит матрица, т.е. прямоугольная таблица, сводящая воедино профили ответов студентов и профили заданий теста (столбцы из оценок всех студентов по каждому заданию теста).

Пример матрицы наблюдаемых результатов, полученной при выполнения N (N = 10) студентами n (n = 10) заданий теста при дихотомических оценках (1 или 0) по заданиям приведен в табл. 6. 1.

Справа в вертикальном столбце содержатся индивидуальные баллы студентов Xi (i = 1, 2, …, N), которые получаются суммированием единиц по горизонтали в каждом профиле ответов. Сложение единиц в столбцах по профилям ответов на n заданий теста позволяет получить числа Y_j (j = 1, 2, …, i), соответствующие количеству правильных ответов на каждое задание. С помощью матрицы можно выполнить ряд расчетов, интерпретация результатов которых позволяет сделать важные выводы относительно качества заданий теста и получить достаточно точные оценки параметра испытуемых в том случае, если тест соответствует определенным критериям качества.

Таблица 6.1 Пример матрицы наблюдаемых результатов выполнения теста

Для анализа обычно используется упорядоченная матрица, в которой не только задания ранжированы по нарастанию трудности (см. табл. 6.1), но и баллы испытуемых расположены по убыванию или нарастанию сверху вниз (табл. 6.2).

По данным матрицы обычно проводят графическую интерпретацию распределений для трудности заданий и индивидуальных баллов испытуемых, которые представляют в виде полигона, гистограммы или сглаженной кривой (процентилей, огивы). Для больших выборок испытуемых (50 студентов и более) графическую интерпретацию предваряет формирование частотного распределения (табл. 6.3).

Таблица 6.2 Упорядоченная матрица данных тестирования

Таблица 6.3 Частотное распределение баллов

В табл. 6.3 содержатся только различные индивидуальные баллы испытуемых, взятые из последнего столбца матрицы эмпирических результатов выполнения теста и расположенные в порядке возрастания слева вместе с числом их повторений (f). Сумма всех частот для данного примера N = 1 + 1 + 3 + 1 + 2 + 2 =10, т.е. числу студентов в группе. Для очень большой группы в 100 или более студентов строят сгруппированное частотное распределение, в котором оценки объединяют в группы. Каждая группа называется разрядом оценок. В случае полного размещения оценок по разрядам говорят о распределении сгруппированных частот баллов студентов. Хотя четкого правила выбора количества разрядов нет, но обычно их число стараются варьировать в пределах от 12 до 15.

По ряду частотного распределения можно получить графическое представление результатов тестирования в виде гистограммы – последовательности столбцов, каждый из которых опирается на единичный (разрядный) интервал, а высота его пропорциональна частоте наблюдаемых баллов. Например, для рассматриваемого примера (см. табл. 6.3) гистограмма приведена на рис. 6.1. Середина столбца совмещается с серединой интервала разряда, который выбран длиной в 1 балл.

Рис. 6.1. Столбчатая гистограмма для распределения баллов в табл. 6.3

Для дальнейшего анализа данных оцениваются меры центральной тенденции в распределении результатов тестирования, которые предназначены для выявления той точки, вокруг которой в основном группируются все результаты выполнения теста. При анализе результатов тестирования можно использовать разные подходы к определению такой центральной точки. Наиболее простой способ основан на выявлении моды распределения и среднего арифметического баллов.

Мода – это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных табл. 6.3 модой является балл 4, потому что он встречается чаще (3 раза) любого другого балла. Конечно, не всякое распределение имеет единственную моду, их может быть две или больше. В случае существования двух мод распределение называется бимодальным. Если все значения баллов студентов встречаются одинаково часто, принято считать, что моды у распределения нет.

Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для индивидуальных баллов Χ₁, Χ₂, …, Х_N группы N испытуемых среднее значение X̅ будет:

(6.1)

Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы (см. табл. 6.2) равно

В отличие от моды, фиксирующей одно или несколько значений, на величину среднего влияют значения всех результатов распределения. Таким образом, среднее арифметическое характеризует все распределение в целом. Оно обобщает индивидуальные особенности составляющих распределения на основе уравнивания отдельных значений рассматриваемой величины.

Меры центральной тенденции полезны при оценке качества теста, если есть результаты апробации теста на репрезентативной выборке студентов. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки испытуемых, если среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений находятся в центре, а остальные сходят на нет к краям распределения, как на рис. 6.2.

Рис. 6.2. Нормальная кривая распределения индивидуальных баллов

Если тест обеспечивает распределение баллов, близкое к нормальному, то это означает, что на его основе можно определить устойчивое среднее, которое принимается в качестве одной из репрезентативных норм выполнения теста. Обратный вывод, вообще говоря, неверен: устойчивость тестовых норм не предполагает обязательного нормального распределения эмпирических результатов выполнения теста. Нормальная кривая – это изобретение математиков, которое в сглаженном, идеальном виде описывает реальный полигон частот. На практике никогда не была и не будет получена совокупность данных, распределенных точно по нормальному закону, просто иногда полезно, допуская определенную ошибку, утверждать, что распределение эмпирических данных близко к нормальной кривой.

Нормальное распределение унимодально и симметрично, т.е. половина результатов, расположенная ниже моды, в точности совпадает с другой половиной, расположенной выше, а мода и среднее значение равны. Отсутствие полной симметрии в полигоне частот на практике приводит к смещению моды относительно среднего значения.

В малых выборках мода, как и среднее значение, теряет свою стабильность, хотя причина нестабильности может быть другая, связанная с неправильным подбором по трудности заданий в тесте. Например, если на репрезентативной выборке студентов получилась гистограмма тестовых баллов с бимодальным распределением, то среднее значение распределения, находящееся в центре, никак не может служить нормой выполнения теста. Скорее всего, тест был сконструирован неудачно, что послужило причиной отсутствия нормального распределения эмпирических результатов выполнения теста. Смещение среднего значения баллов студентов влево или вправо говорит о слишком трудной либо слишком легкой подборке заданий теста соответственно.

Таким образом, правильно сконструированный нормативно-ориентированный тест на репрезентативной выборке студентов должен обеспечивать близкое к симметричному распределение индивидуальных баллов, когда мода и среднее значение примерно равны, а остальные результаты расположены вокруг среднего по нормальному закону.

Дальнейший анализ данных тестирования связан с оцениванием мер изменчивости в распределении индивидуальных баллов. Характеристика изменчивости указывает на особенности разброса эмпирических данных вокруг среднего значения баллов. Отдельные значения индивидуальных баллов могут быть тесно сгруппированы вокруг своего среднего балла либо, наоборот, сильно удалены от него. Для отражения характера рассеяния отдельных значений вокруг среднего используют различные меры: размах, дисперсию и стандартное отклонение.

Размах измеряет на шкале расстояние, в пределах которого изменяются все значения показателя в распределении. Например, для распределения индивидуальных баллов в табл. 6.3 размах равен 9 – 1 = 8. Вариационный размах легко вычисляется, но используется крайне редко при характеристике распределения баллов по тесту. Во-первых, размах является весьма приближенным показателем, так как не зависит от степени изменчивости промежуточных значений, расположенных между крайними значениями в распределении баллов по тесту. Во-вторых, крайние значения индивидуальных баллов, как правило, ненадежны, поскольку содержат в себе значительную ошибку измерения. В этой связи более удачной мерой изменчивости считается дисперсия.

Подсчет дисперсии основан на вычислении отклонений X_i – X̅ (i = 1, 2, …, N) каждого значения показателя от среднего арифметического в распределении. Для индивидуальных баллов значения отклонений несут информацию о вариации совокупности значений баллов N студентов, поскольку отражают меру неоднородности результатов по тесту. Совокупность с большей неоднородностью будет иметь большие по модулю отклонения, наоборот, для однородных распределений отклонения должны быть близки к нулю. Знак отклонения указывает место результата студента по отношению к среднему арифметическому по тесту. Для студента с индивидуальным баллом выше среднего значение разности X_i – X̅ будет положительно, а для тех, у кого результат ниже X̅, отклонение X_i – X̅ меньше нуля.

Если просуммировать все отклонения, взятые со своим знаком, то для симметричных распределений сумма будет равна нулю. В рассматриваемом примере матрицы сумма отклонений

Чтобы отрицательные и положительные слагаемые не уничтожали друг друга, каждое отклонение возводят в квадрат и находят сумму квадратов отклонений. Эта сумма будет большой, если результаты тестирования отличаются существенной неоднородностью, и малой в случае близких результатов испытуемых по тесту.

Для рассматриваемого примера данных сумма квадратов отклонений

Величина суммы зависит также от размера выборки испытуемых, выполнявших тест, поэтому для сопоставимости мер изменчивости распределений, отличающихся по объему, каждую сумму делят на N – 1, где N – число студентов, выполнявших тест. Определяемая таким образом мера изменчивости называется исправленной дисперсией. Она обычно обозначается символом S_x² и вычисляется по формуле

(6.2)

Кроме дисперсии, для характеристики меры изменчивости распределения удобно использовать еще один показатель вариации, который называется стандартным отклонением и вычисляется путем извлечения квадратного корня из дисперсии:

(6.3)

Для рассматриваемого примера данных тестирования

Свойства дисперсии и стандартного отклонения рассматриваются подробно в учебниках по статистике. Заинтересованному читателю можно порекомендовать, например, книгу Дж. Гласс, Дж. Стенли «Статистические методы в педагогике и психологии» [7].

Дисперсия играет важную роль в оценке качества тестов. Низкая дисперсия указывает на плохое качество нормативно-ориентированного теста, поскольку не обеспечивает высокий дифференцирующий эффект. Излишне высокая дисперсия, характерная для случая, когда все студенты отличаются по числу выполненных заданий, также требует переработки теста из-за существенного отличия вида распределения баллов от планируемой нормальной кривой. В процессе коррекции теста следует руководствоваться простым правилом: если проверка согласованности эмпирического распределения с нормальным дает положительные результаты, а дисперсия растет, то это означает, что переработка приводит к повышению его качества.

Использование стандартного отклонения как меры вариации особенно эффективно для нормального распределения баллов испытуемых, поскольку в этом случае можно прогнозировать процент данных, лежащих внутри одного, двух и трех стандартных отклонений, откладываемых от центра распределения. В любом нормальном распределении приблизительно 68% площади под кривой лежит в пределах одного стандартного отклонения, откладываемого влево и вправо от среднего (т.е. X̅ ± 1 · S_x); 95% площади под кривой расположено в пределах двух S_x откладываемых слева и справа от среднего (X̅·± 2 · S ); 99,7% площади под кривой – в пределах трех S_x по обе стороны от X̅ (X̅ ± 2 · S_x).

Вообще существует бесконечное множество нормальных кривых, отличающихся друг от друга значениями X̅ и S_x, но все они объединяются общими свойствами, которые связаны с долями площади под кривой в пределах определенного числа отклонений. Из всех нормальных кривых наиболее удобна единичная, площадь под которой равна единице. Для нее среднее значение равно нулю, а стандартное отклонение единице.

Для преобразования любой нормальной кривой в единичную достаточно выполнить вычитание среднего значения X̅ из каждого индивидуального балла X_i и разделить полученную разность на стандартное отклонение S_x, т.е., применив формулу

получим нормированное нормальное распределение со средним в нуле и единичным стандартным отклонением.

При разработке теста необходимо помнить о том, что кривая распределения индивидуальных баллов, получаемых на репрезентативной выборке, носит неслучайный характер. Она является следствием подбора трудности заданий теста. При смещении в сторону легких заданий большая часть студентов выполнит почти все задания теста и получит высокие индивидуальные баллы. При приоритетном подборе самых трудных заданий в распределении индивидуальных баллов получится всплеск вблизи начала горизонтальной оси. При оптимальной трудности теста, когда распределение оценок параметра трудности заданий имеет вид нормальной кривой, автоматически возникает нормальность распределения индивидуальных баллов репрезентативной выборки студентов, что в свою очередь позволяет считать полученное распределение устойчивым по отношению к генеральной совокупности и определить репрезентативные нормы выполнения теста.

Углубленный анализ качества теста, позволяющий сделать выводы о направлениях коррекции содержания отдельных заданий, связан с вычислением показателей связи между результатами испытуемых по отдельным заданиям теста. При оценке качества заданий важно понять, существует ли тенденция, когда одни и те же студенты добиваются успеха в какой-либо паре заданий теста либо состав учеников, добивающихся успеха, полностью меняется при переходе от одного задания теста к другому. Ответ на вопрос о существовании связи между двумя наборами данных получают с помощью корреляции.

Для выражения степени соответствия между наборами данных X и Y используется специальная мера, которая называется ковариацией. Смысл понятия «ковариация» удобно пояснить на примере результатов выполнения одной группой испытуемых двух тестов X и Y Пусть результаты по первому тесту X – это множество х_i (i = l, 2, …, Ν), а по второму тесту – Y_i (i = 1, 2, …, Ν). Тогда для установления меры связи между результатами студентов по двум тестам необходимо сравнить положение каждого тестируемого по отношению к средним в распределении результатов по тесту X и по тесту Y. Степень соответствия результатов i-го испытуемого в первом (X) и во втором (Y) тестированиях будет проявляться в величине и знаке произведения отклонений (X_i – X̅)(Y_i – Y̅), где X_i, Y_i – результаты i-го испытуемого в первом и во втором тестированиях соответственно (i = 1, 2, …, N); X̅, Y̅ — средние значения результатов по тестам X и Y, N — число студентов тестируемой группы.

Если результат i-го испытуемого намного выше или ниже среднего балла по обоим тестам, то произведение (X_i – X̅)(Y_i – Y̅) будет большим и положительным. Таким образом, при прямой связи значений X_i и Y_i (i = 1, 2, …, N) по тестам X и Y большой и положительной получится сумма всех произведений, т.е.

При обратной связи результатов тестирования, когда большинство значений X_i выше (ниже) среднего X̅ по тесту X сменяются на значения Y_i ниже (выше) среднего Y̅ по тесту Y, сумма

будет меньше нуля и велика по модулю в силу отрицательного знака всех или почти всех произведений (X_i – X̅)(Y_i – Y̅). Наконец, если систематической связи между результатами студентов по тестам X и Y не наблюдается, знак произведения (X_i – X̅)(Y_i – Y̅) будет хаотически меняться. Вполне возможно, что для достаточно большой выборки испытуемых, положительные слагаемые будут уравновешиваться отрицательными и потому сумма произведений

получится близкой к нулю.

Таким образом, произведение (X_i – X̅)(Y_i – Y̅) по знаку и абсолютной величине отражает характер связи между наборами данных. Операция усреднения, осуществляемая путем деления суммы произведений отклонений на число испытуемых в выборке, позволяет получить показатель связи, не зависящий от размеров выборок, который называется ковариацией и обозначается символом. Его можно использовать для сравнения мер связи между результатами тестовых измерений по выборкам разного объема.

(6.4)

(Замечание, также как и в случае подсчета дисперсии, для различных прикладных задач в статистике удобнее делить не на N, а на N – 1, что при больших размерах выборок не сказывается существенно на величине S_xy).

Для повышения сопоставимости оценок показателей связи по выборкам с различной дисперсией ковариацию делят на стандартные отклонения. Таким образом, S_xy необходимо разделить на S_x и S_y, где S_x и S_y – стандартные отклонения по множествам X и Y соответственно. В результате после преобразований получается величина, которая называется коэффициентом корреляции Пирсона r_xy:

(6.5)

При исследовании связи между наборами данных необходимо правильно выбрать вид и форму показателя, зависящих от шкал, в которых представлены данные (см. подробнее в книге: [7]). В частности, для оценки связи между результатами выполнения учащимися двух заданий теста коэффициент корреляции Пирсона r_xy необходимо преобразовать, поскольку результаты выполнения заданий представляются в дихотомической шкале (столбцы из нулей и единиц в матрице данных по тесту). Преобразованный коэффициент Пирсона для дихотомических данных называется коэффициентом ц и вычисляется по формуле

(6.6)

где p_jl – доля испытуемых, выполнивших правильно оба задания с номерами j и l, т.е. доля тех, кто получил 1 балл по обоим заданиям; p_j – доля испытуемых, правильно выполнивших j-е задание, q_j= 1 – p_j; p_l – доля испытуемых, правильно выполнивших l-е задание теста, q_l = 1 – p_l.

Например, для рассматриваемого примера матрицы корреляция между результатами по 5-му и 6-му заданиям теста будет:

Результаты подсчета значений коэффициента корреляции между всеми заданиями для примера матрицы сведены в табл. 6.4.

Анализ значений коэффициента корреляции в табл. 6.4 позволяет выделить в категорию «плохих» 3-е и 8-е задания теста. Задание 3 отрицательно коррелирует с заданиями 7, 8, 9 и 10. О том, что «виновато» 3-е, а не другие задания теста, свидетельствует анализ значений коэффициента корреляции в столбцах с номерами 7, 9 и 10. В них просматривается только один минус на месте, соответствующем заданию теста 3, которое в свою очередь отрицательно коррелирует с четырьмя заданиями теста. Аналогичная ситуация наблюдается для задания 8. Отрицательные значения коэффициента корреляции указывают на определенный просчет разработчиков в содержании заданий, которые рекомендуется из теста удалить. Наиболее распространенная причина появления отрицательной корреляции – отсутствие предметной чистоты содержания – нередко встречается при разработке самых разных тестов.

Понятно, что предметная чистота – скорее, идеализируемое, чем реальное требование к содержанию любого теста. Например, в тесте по физике всегда встречаются задания с большим количеством математических преобразований, в тесте по биологии – задания, требующие серьезных знаний по химии, в тесте по истории – задания, рассчитанные на выявление культурологических знаний, и т.п. Поэтому можно лишь стремиться к тому, чтобы при выполнении каждого задания доминировали знания по проверяемому предмету.

Таблица 6.4 Коэффициенты корреляции заданий

Анализ 9-го столбца табл. 6.4 с максимальной суммой 4,6495, приведенной в конце, указывает на наличие ряда довольно высоких значений коэффициента корреляции (φ_9,8 = 0,6124; φ_9,7 = 0,7638; φ_9,10 = 0,6667), которые могут получить различную трактовку в зависимости от вида разрабатываемого теста. Для тематических тестов высокая корреляция между заданиями неизбежна, так как они в большинстве своем имеют слабо варьирующее исходное содержание, что вполне объяснимо назначением теста. Однако для итоговых тестов высокой корреляции между заданиями по возможности стараются избегать, поскольку вряд ли имеет смысл включать в итоговый тест несколько заданий, оценивающих одинаковые содержательные элементы. Поэтому в итоговых аттестационных тестах обычно стремятся к невысокой положительной корреляции, когда значения коэффициента варьируют в интервале (0; 0,3), и каждое задание привносит свой специфический вклад в общее содержание теста.

Далее с помощью подсчета значений точечного бисериального коэффициента корреляции можно оценить валидность отдельных заданий теста. Бисериальный коэффициент корреляции используется в том случае, когда один набор значений распределения задается в дихотомической шкале, а другой – в интервальной. Под эту ситуацию подпадает подсчет корреляции между результатами выполнения каждого задания (дихотомическая шкала) и суммой баллов испытуемых (интервальная или квазиинтервальная шкала) по заданиям теста.

Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Следующая

Скачать книгу "Контроль качества обучения при аттестации: компетентностный подход"

- 0
- 1
- 2
- 3
- 4
- 5
0 Оценок: 0

Правообладателям!

Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.

Текст книги "Контроль качества обучения при аттестации: компетентностный подход"

Автор книги: Марина Челышкова

Жанр: Прочая образовательная литература, Наука и Образование

5.5. Задания на установление правильной последовательности

5.6. Сравнительная характеристика форм тестовых заданий

Выводы

Практические задания и вопросы для обсуждения

6. Статистический анализ качества тестовых заданий и тестов

6.1. Классическая теория и методики конструирования тестов

6.2. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов

Популярные книги за неделю

Жанры библиотеки

Популярные серии книг

По году издания

Рекомендации