Текст книги "Тестовый контроль в образовании"
Автор книги: Надежда Ефремова
Жанр: Прочая образовательная литература, Наука и Образование
сообщить о неприемлемом содержимом
Текущая страница: 27 (всего у книги 28 страниц)
Страты – определенные слои в некотором множестве объектов, например в генеральной совокупности потенциальных участников тестирования. Характеризуются различными программами обучения, региональным представительством, бытовыми условиями и т.п.
Структура теста – совокупность сведений о числе и типе тестовых заданий по каждому элементу содержания учебного предмета и по каждому виду знаний или умений, позволяющих объективно судить об уровне подготовленности испытуемых. Указывается также предполагаемый уровень трудности каждого тестового задания и по возможности его коэффициент дискриминации.
Субтест – определенное подмножество тестовых заданий некоторого теста, допускающее независимую обработку результатов тестирования и позволяющее, таким образом, решать специфические частные задачи тестирования. Тест может содержать несколько субтестов, возможно перекрывающихся.
Теория моделирования и параметризации педагогических тестов (ТППТ) – теоретическая основа педагогических измерений, позволяющая ввести метрику шкалы, по которой фиксируются результаты тестирования. Основные задачи: разработка моделей тестирования; проверка адекватности различных тестов реальной действительности; измерение характеристик тестовых заданий и участников тестирования в виде оценки; шкалирование результатов тестирования и определение их точности.
Тест стандартизованный – педагогический тест, имеющий спецификацию и определенные характеристики, стабильно подтвержденные на представительной выборке испытуемых. Предназначен для многократного использования.
Тестовые нормы – наиболее важные статистические характеристики распределения результатов тестирования нормативной выборки испытуемых.
Тестолог – специалист, занимающийся теоретическими и практическими вопросами тестологии.
Тестология – наука в области педагогических измерений, дающая теоретико–методологическое и методическое обоснование разработке и применению педагогических тестов для определения характеристик и свойств личности.
Трудность тестового задания (уровень трудности) – основная количественная характеристика тестового задания, измеренная по определенной шкале и не зависящая от выборки испытуемых.
Тестовые шкалы (шкала) – упорядоченные множества числовых оценок результатов тестирования; для разных целей создаются различные тестовые шкалы (пятибалльная шкала, стобалльная шкала).
Шкалирование результатов – процесс формирования тестовых шкал и тестовых норм, т. е. правил начисления тестовых баллов по результатам тестирования на основе статистических данных.
Шкала нормализованная с постоянным шагом – порядковая шкала, индексы которой соответствуют равноудаленным значениям баллов с шагом z ( например, десятибалльная шкала с z = 0,5 будет иметь 20 значений).
Приложение 2
ПРИМЕРЫ ЗАДАНИЙ С РАЗНЫМИ ПРИНЦИПАМИ КОМПОЗИЦИИ
1. Задание с выбором нескольких правильных ответов из числа предлагаемых.
УКАЖИТЕ СООТНОШЕНИЯ, ЯВЛЯЮЩИЕСЯ ПОСТУЛАТАМИ БОРА:
2. Задание, построенное на основе принципа противоречия.
ЧИСЛО ЭЛЕКТРОНОВ И ПРОТОНОВ В АТОМЕ:
1) одинаковое;
2) неодинаковое.
3. Задание по принципу противоположности.
С УВЕЛИЧЕНИЕМ ЗАРЯДА ЯДРА АКТИВНОСТЬ ЩЕЛОЧНЫХ МЕТАЛЛОВ:
1) возрастает;
2) убывает.
4. Задание по принципу однородности.
ВСЕ АРИФМЕТИЧЕСКИЕ ОПЕРАЦИИ НАД ДВОИЧНЫМИ ЧИСЛАМИ В ЭВМ СВОДЯТСЯ К:
1) сложению;
2) вычитанию;
3) умножению;
4) делению.
5. Задание по приципу кумуляции.
ЧТОБЫ ЗАДАТЬ ДВИЖЕНИЕ ТОЧКИ, НАДО ЗНАТЬ:
1) траекторию;
2) траекторию и закон движения;
3) траекторию, закон движения и начало отсчета;
4) траекторию, закон движения, начало отсчета и скорость.
6. Задание на основе принципа сочетания.
ЯДРО АТОМА СОСТОИТ ИЗ:
1) протонов и электронов;
2) электронов и нейтронов;
3) нейтронов и протонов.
7. По принципу фасетности содержания задания имеют вид:
1) увеличивается;
2) не изменяется;
3) уменьшается.
8. Принцип импликации отличается от принципа фасетности только логической формой условного суждения вида «если… , то».
1) юг;
2) север;
3) запад;
4) восток.
9. Самой распространенной является альтернативная форма задания, что вызвано легкостью ее конструирования. Она подходит для тестирования по любому учебному материалу и для любого типа информации. Практически эта форма представляет собой вопрос с несколькими вариантами ответов. Вероятность угадывания при такой форме задания может быть достаточно малой. Примеры заданий этого типа.
ЧТО НАЗЫВАЕТСЯ ЭЛЕКТРИЧЕСКИМ ТОКОМ
а) упорядоченное движение электронов;
б) упорядоченное движение ионов;
в) упорядоченное движение электрических зарядов;
г) движение электронов и ионов?
КАКАЯ ИЗ ПРИВЕДЕННЫХ НИЖЕ СТРУКТУР СООТВЕТСТВУЕТ ЭЛЕКТРОННОЙ СТРУКТУРЕ ВОДОРОДОПОДОБНОГО АТОМА БОРА?
10. Обобщающее задание можно отнести к разновидности альтернативного или вариативного, но, поскольку оно предполагает помимо контроля знаний проверку умений обобщать и делать выводы, его выделяют в отдельный тип задания. При разработке данного задания в одной колонке дается перечисление тех или иных признаков, а в другой приводится несколько вариантов их обобщенных характеристик, среди которых испытуемый должен отобрать один или несколько ответов, наиболее точно характеризующих данный признак.
11. Анализирующее задание по своей конструкции может быть отнесено к альтернативному или вариативному типу и выделяется в отдельный вид из–за возможности его использования в качестве двухмерного или даже трехмерного; требует выбора фактов, характеристик, примеров, которые соответствуют данному явлению. Обобщающее задание проверяет способность тестируемого анализировать данные, делать выводы от частного к общему и наоборот.
ИЗ ПЕРЕЧИСЛЕННЫХ НИЖЕ ТИПОВ НОСИТЕЛЕЙ ЗАРЯДА ВЫБЕРИТЕ ТЕ, КОТОРЫЕ ХАРАКТЕРИЗУЮТ ЭЛЕКТРИЧЕСКИЙ ТОК В ЖИДКОСТЯХ:
а) электроны; б) ионы; в) все электрические заряды; г) электроны и ионы.
12. Разновидностью альтернативной формы задания является многовариантная. Эта форма требует более глубокого анализа имеющейся альтернативы и дает возможность проверить не только наличие знаний, но и умение использовать их в сложных ситуациях.
УКАЖИТЕ МАТЕМАТИЧЕСКОЕ ВЫРАЖЕНИЕ ЕМКОСТИ КОНДЕНСАТОРА:
Отличительной чертой этой формы является то, что из множества вариантов ответов на один вопрос необходимо подобрать не один, а несколько правильных ответов.
13. Собирательная форма задания является усложненной разновидностью альтернативной, как правило, она полностью исключает возможность угадывания ответа, так как требует творческого подхода к выполнению задания, глубокого анализа сущности задания и его составных частей. Особенность ее состоит в том, что ответ необходимо составить из логически связанных элементов, каждый из которых выбирается из предлагаемых групп, содержащих несколько вариантов.
КАКИЕ СПЕКТРЫ НАЗЫВАЮТСЯ СПЛОШНЫМИ? В КАКИХ СЛУЧАЯХ ОНИ ИЗЛУЧАЮТСЯ?
а) …излучаются раскаленными твердыми и жидкими телами, а также газами при больших давлениях;
б) …излучаются веществами, находящимися в молекулярном состоянии (газы, жидкости и т.д.);
в) …излучаются веществами, находящимися в атомарном состоянии (раскаленные газы или пары твердых тел);
г) …атомы излучают те же самые длины волн, которые испускают;
д) …состоят из большого числа отдельных линий, сливающихся в полосы, четкие с одного края и размытые с другого;
е) …спектры, возникающие за счет излучения вещества, атомы которого находятся в возбужденном состоянии;
ж) …спектры, в которых цвета спектральных линий непрерывно переходят от одного цвета к другому;
з) …спектры, возникающие при прохождении какого–либо излучения (например, белого света) через вещество;
и) …спектры, состоящие из отдельных цветных линий.
14. Распределительная форма задания предусматривает необходимость распределить несколько ответов по вопросам, связанным общей темой. Его особенность заключается в том, что испытуемые должны распределить правильные варианты характеристик изучаемых объектов и явлений. Распределительный тест предоставляет наибольшие возможности для проверки глубины знаний в зависимости от ступеней распределения, заложенных в данном тесте. В первой колонке приводятся объекты, которые будут подвергнуты анализу, во второй – одно–двухступенчатое задание, далее – трехступенчатое и т.д. (до восьми и более ступеней в зависимости от глубины анализа; для примера взято двухступенчатое задание). Распределительные задания предоставляют возможность планировать глубину анализа в зависимости от целей тестирования.
РАССМОТРИТЕ ВСЕ ХАРАКТЕРИСТИКИ ГРАВИТАЦИОННОГО И ЭЛЕКТРОСТАТИЧЕСКОГО ПОЛЕЙ, УКАЖИТЕ, КАКИЕ ХАРАКТЕРИСТИКИ ЯВЛЯЮТСЯ ДЛЯ НИХ ОБЩИМИ
Преподаватель может ограничиться поверхностным анализом явления, предложив испытуемым двухступенчатое задание, или потребовать представления возможно более полной характеристики изучаемого явления (шести-, семи-, восьмиступенчатые задания). Вопросов может быть больше 8—10, но в этом случае количество ответов должно соответствовать числу вопросов. Существуют и более сложные формы распределительных тестов, когда предлагаемые ответы распределены по смысловым группам.
15. Задания открытой формы подразумевают необходимость достроить предложение, вставить пропущенное слово или символ, при этом готовые ответы не даются. Задания открытой формы формулируются в виде утверждений, которые превращаются в истинное высказывание, если ответ правильный, и в ложное, если ответ неправильный. В инструкции по выполнению задания используется слово «дополните». Подробно образцы таких заданий изложены в работах [1, 6, 139]. Вариативность содержания такого задания может быть обеспечена фасетностью, использование фасета позволяет расширить возможности задания.
ПРАВОПИСАНИЕ ЧЕРЕДУЮЩИХСЯ ГЛАСНЫХ В КОРНЯХ
16. Задания по принципу обратимости наиболее эффективны при разработке автоматизированных контрольно–обучающих программ, в которых фрагмент материала закрепляется в сознании учащихся в форме прямых и обратных утверждений.
ОПЕРАЦИЯ НАХОЖДЕНИЯ ПРОИЗВОДНОЙ ФУНКЦИИ НАЗЫВАЕТСЯ ___________________ .
ДИФФЕРЕНЦИРОВАНИЕМ НАЗЫВАЕТСЯ ОПЕРАЦИЯ НАХОЖДЕНИЯ ___________________ .
17. Для проверки знаний более высокого уровня используются задания на установление соответствия. В заданиях этого вида проверяются знания связей между элементами двух множеств и требуется установить соответствие элементов одного столбца (данного множества) элементам другого столбца (элементы выбора). Названия этих столбцов должны относиться ко всем элементам представляемого класса. Элементы столбца должны полностью соответствовать содержанию заголовка. Число элементов правого столбца примерно в два раза больше числа элементов левого столбца. Избыточные правдоподобные (но неверные) элементы имеются только в правом столбце. В левом столбце для обозначений элементов заданий используются номера, а в правом – буквы. Основное применение таких заданий – тематический контроль.
Задания начинаются со стандартной инструкции: Установить соответствие.
18. Задания на установление правильной последовательности особенно необходимы на заключительной стадии профессиональной подготовки. Тестируемый ставит цифры рангов в прямоугольники, стоящие перед элементом задания. Цель введения таких заданий – формирование алгоритмических мышления, знаний, умений и навыков. Алгоритмическое мышление можно определить как интеллектуальную способность, проявляющуюся в определении наилучшей последовательности действий при решении учебных и практических задач. Задания этой формы проверяют не все знания, а только алгоритмические, процедурные, технологические. Число таких заданий можно значительно расширить за счет фасетности. Инструкция к таким заданиям: Установить правильную последовательность, представив номера от 1 до 7 в клетках.
СОБЫТИЯ ФЕВРАЛЯ—ОКТЯБРЯ 1917 г.
♦ – VI съезд РСДРП(б);
♦ – отречение царя Николая II;
♦ – приезд Ленина;
♦ – Корниловский мятеж;
♦ – создание Петроградского совета;
♦ – ликвидация двоевластия;
♦ – II съезд Советов.
Приложение 3
ОСНОВЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ РЕЗУЛЬТАТОВ
При обработке результатов массового тестирования широко используется латентно–структурный анализ, представляющий собой современный методологический подход и использующий совокупность статистических методов, в основе которых лежит предположение о наличии функциональной связи между латентными параметрами испытуемых и наблюдаемыми результатами выполнения тестов. Такой подход нацелен на переход путем специальных преобразований наблюдаемых результатов выполнения теста к оценкам латентных параметров испытуемых, выражаемых тестовыми баллами, и уровня трудности заданий в ло–гитах. При организации современного контрольно–оценочного процесса решается задача установления пределов измеряемых характеристик, в рамках которых качество обучения соответствует требованиям. Вообще говоря, при решении этой задачи существуют два «врага» оценки качества: отклонения от плановых спецификаций (или нормы) и слишком большой разброс реальных характеристик относительно нормативных показателей.
Для обсуждения результатов массового тестирования при процедурах статистического анализа данных и для понимания «численной природы» педагогических измерений необходим краткий обзор элементарных понятий статистики. Что такое переменные, какие из них являются зависимыми и независимыми, какие существуют зависимости между переменными, что такое статистическая значимость и объем выборки? Каково значение нормального распределения в статистических рассуждениях? Как можно дифференцировать уровни подготовленности разных испытуемых? Эти и многие другие вопросы необходимы для работы с образовательной статистикой и для правильной интерпретации результатов тестового контроля, основанного на количественном определении переменных и установлении зависимостей между ними.
Переменные – это то, что можно измерять, контролировать или изменять в исследованиях. Их подразделяют на зависимые и независимые. Независимыми называются такие переменные, которые варьируются самим исследователем, тогда как зависимые переменные – это переменные, которые измеряются или регистрируются. Зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие. Экспериментатор, манипулируя независимыми переменными, приписывает объекты к экспериментальным группам, основываясь на некоторых их априорных свойствах. Например, пол респондентов является независимой переменной.
Анализ зависимых данных приводит к вычислению корреляций (зависимостей) между переменными и выявлению причинно–следственной связи между ними [36]. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод о том, что переменная A оказывает влияние на переменную B, между переменными А и В имеется причинная зависимость, а следствием изменения величины В является изменение величины А.
Независимо от типа две или более переменные связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, переменные зависимы, если их значения согласованы друг с другом в имеющихся наблюдениях. Например, рост связан с весом, обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, а люди с высоким значением IQ делают меньше ошибок и т.д.
Конечная цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между переменными в терминах их количественных или качественных зависимостей, корреляций. Можно отметить два самых простых свойства зависимости между переменными: величину зависимости и надежность зависимости.
Величину зависимости понять и измерить легче, чем надежность. Надежность – менее наглядное понятие, однако оно чрезвычайно важно, так как связано с репрезентативностью выборки, на основе которой строятся выводы. Другими словами, надежность говорит нам о том, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена на данных другой выборки, извлеченной из той же самой генеральной выборки (всей совокупности исследуемых объектов). Надежность найденных зависимостей между переменными конкретной выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой p-уровнем или статистическим уровнем значимости).
Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки), p-уровень (термин введен K.A. Brownlee, 1960) – это показатель, находящийся в убывающей зависимости от надежности результата [233]. Более высокий p – уровень соответствует более низкой зависимости между переменными, найденной в выборке. Именно p – уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на генеральную выборку. Например, p –уровень, равный 0,05 (т.е. 1/20), показывает, что имеется 5% вероятности того, что найденная в выборке связь между переменными является случайной. Иными словами, если данная зависимость в генеральной выборке отсутствует, то примерно в одном из двадцати повторений эксперимента можно ожидать появления такой же или более сильной зависимости между переменными. Если между переменными генеральной выборки существует такая зависимость, то вероятность повторения результатов исследования, показывающих наличие этой зависимости, называется статистической мощностью плана. В большинстве исследований p – уровень, равный 0,05 (или 5%), рассматривается как приемлемая граница ошибки измерения.
Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений множества данных. Результаты, значимые на уровне p = 0,01, обычно рассматриваются как статистически значимые, а результаты с уровнем p = 0,005 или p = 0,001 – как высокозначимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследований.
Понятно, что чем больше видов анализов проводится с совокупностью данных, тем большее число значимых (на выбранном уровне) результатов будет обнаружено чисто случайно. Например, если имеет место корреляция между 10 переменными из 45, то можно ожидать, что примерно два коэффициента корреляции (один на каждые 20) чисто случайно окажутся значимыми на уровне p= 0,05. Тем не менее многие статистические методы (особенно простые методы разведочного анализа данных) не предлагают какого–либо способа решения данной проблемы. Поэтому исследователь должен с осторожностью оценивать надежность неожиданных результатов: чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.
Если предполагать отсутствие зависимости между соответствующими переменными в генеральной выборке, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в исследуемой выборке, тем менее вероятно, что этой зависимости нет в генеральной, из которой она извлечена. Таким образом, величина зависимости и ее значимость тесно связаны между собой. Однако указанная связь между зависимостью и значимостью имеет место только для данного объема выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высокозначимой, так и не значимой вовсе.
Если наблюдений мало, то, соответственно, имеется мало возможных комбинаций значений переменных, и, таким образом, вероятность случайного обнаружения комбинации значений, показьгаающигх сильную зависимость, относительно велика. Рассмотрим следующий пример. Если исследуется зависимость двух переменных и имеется только 4 субъекта в выборке, то вероятность того, что чисто случайно будет найдена 100%-ная зависимость между двумя переменными, равна 1/8. Если рассмотреть вероятность подобного совпадения для 100 субъектов, то легко видеть, что эта вероятность равна практически нулю. Очевидно, чем меньше объем выборки в каждом эксперименте, тем более вероятно появление ложных результатов, когда такая зависимость на самом деле отсутствует.
Если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат получен при проверке всей генеральной, бесконечно большой выборки.
Статистиками разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимости и т.д. Большинство таких мер между переменными подчиняется общему принципу статистической значимости: оценивание наблюдаемой зависимости с помощью сравнения ее с максимально мыслимой зависимостью – критерием. Значение статистических критериев состоит в оценивании зависимости между переменными. Однако, чтобы определить уровень статистической значимости, нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Большинство функций имеет характер нормального распределения (рис. 40), представляющего собой одну из эмпирически проверенных истин общей природы статистически значимого числа объектов и один из фундаментальных законов природы. Форма нормального распределения – характерная колоколообразная кривая – определяется двумя параметрами: средним и стандартным отклонением. Более точную информацию о форме распределения можно получить с помощью критериев нормальности. Однако ни один из критериев не может заменить визуальную проверку нормальности с помощью гистограммы (частоты попаданий значений переменной в отдельные интервалы).
Гистограмма позволяет качественно и наглядно оценить различные характеристики распределения, на нее может накладываться кривая нормального распределения. Например, если асимметрия существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично, а его асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. На гистограмме можно увидеть, к примеру, что распределение бимодально (имеет 2 пика), это может быть вызвано тем, что выборка неоднородна, возможно, извлечена из двух разных по свойствам, каждая из которых более или менее нормальна. В таких ситуациях, чтобы понять природу наблюдаемых переменных, можно попытаться найти качественный способ разделения выборки на две части.
При возрастании объема выборки форма выборочного распределения приближается к нормальной, даже если распределение исследуемых переменных не является нормальным. Центральная предельная теорема гласит, что при размере выборки n > 30 выборочное распределение уже почти нормально.
Важным способом описания переменной является форма ее распределения, которая показывает, с какой частотой значения переменной попадают в определенные интервалы. Эти интервалы, называемые интервалами группировки, выбираются исследователем, которого интересует, насколько точно распределение можно аппроксимировать нормальным. Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартного отклонения от среднего, а диапазон ±2 стандартных отклонения содержит 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения меньше–2 или больше +2 имеют относительную частоту менее 5%.
Для характеристики меры изменчивости распределения используют показатель вариации или стандартное отклонение, представляющее собой корень квадратный из дисперсии:
Иногда используют стандартизованное наблюдение, которое означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение.
Исследователю часто бывают необходимы такие статистики, которые позволяют сделать вывод относительно свойств генеральной выборки в целом. Для этого используются описательные статистики, оперирующие такими понятиями, как истинное среднее и доверительный интервал. Среднее генеральной выборки является информативной мерой положения наблюдаемой переменной в доверительном интервале. Доверительный интервал представляет собой интервал, в котором с заранее выбранной вероятностью, близкой к единице (меньшей единицы на величину выбранного уровня значимости критерия), можно утверждать, что с данным уровнем доверия находится истинное значение оцениваемого параметра. Ширина доверительного интервала зависит от объема или размера выборки, а также от разброса (изменчивости) данных. Увеличение размера выборки делает оценку среднего более надежной.
Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p = 95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью
95% интервал с границами 19 и 27 накрывает среднее генеральной выборки. Если установить больший уровень доверия, то интервал станет шире, возрастет вероятность, с которой он накрывает неизвестное среднее генеральной выборки, и наоборот. Известно, что чем неопределеннее прогноз погоды (т.е. шире доверительный интервал), тем вероятнее, что он будет правильным. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок. При увеличении объема выборки, скажем, до 100 или более качество оценки улучшается и без предположения о нормальности выборки [237].
Во многих областях исследований точное измерение переменных само по себе представляет сложную задачу, например в психологии точное измерение личностных характеристик или отношений к чему–либо. В целом, очевидно, во всех социальных дисциплинах ненадежные измерения будут препятствовать попытке правильно предсказать результат. В прикладных исследованиях, когда наблюдения над переменными затруднены, важна точность измерений.
Надежность и точность позволяют построить шкалы измерений или улучшить используемые с помощью классической теории тестирования. В этом контексте надежность понимается непосредственно: измерение является надежным, если его основную часть по отношению к погрешности составляет истинное значение. Оценивание надежности шкалы основано на корреляциях между индивидуальными позициями или измерениями, составляющими шкалу, и дисперсиями этих позиций. Показатель разброса некоторого множества результатов измерений вокруг среднего арифметического называется дисперсией, величина которой определяется по формуле:
где X – число правильно выполненных заданий N испытуемьши.
Каждое измерение (ответ на вопрос) включает в себя как истинное значение, так и частично не контролируемую, случайную погрешность. Для эффективного функционирования контрольно–оценочной системы необходимы высокая надежность и валид–ность педагогических измерений. Под надежностью понимают точность измерений, а также устойчивость результатов к действию случайных факторов. Тест считается надежным, если он обеспечивает высокую точность измерений, а также дает при повторном выполнении на той же выборке близкие результаты при условии того, что подготовка испытуемых не изменилась за время до повторного выполнения теста.
На протяжении десятилетий вопросы надежности исследовались многочисленными теоретиками и практиками в области педагогических измерений. Особо следует отметить работу R.L. Linn [241], в которой рассматриваются не только процедуры оценки надежности, но и методологические вопросы обоснования качества тестовых измерений. Его подход оправдан тем, что в требовании проверки теста на надежность реализуется важная идея методологического характера, связанная с неизбежностью ошибок измерения, порождаемых группой случайных факторов. В самой общей трактовке надежность тестов можно рассматривать как характеристику существующих различий между результатами педагогических измерений и истинными баллами испытуемых (подготовленностью) в той мере, в какой эти различия порождаются случайными ошибками измерения. В теории педагогических измерений ошибка трактуется как статистическая величина, отражающая степень отклонения наблюдаемого балла от истинного балла ученика или студента.
Существование ошибки измерения закладывается и привносится в теорию педагогических измерений основными аксиомами классической теории тестов. К числу наиболее важных аксиом, закладывающих научный фундамент обоснования теории надежности тестов, можно отнести равенство:
Xik= Ti+ Eik,
где Xk – наблюдаемый результат i – го испытуемого выборки по тестовой форме k ; Ti – его истинный балл; Eik – суммарная ошибка измерения при оценке i – го испытуемого с помощью k – й формы теста.
Использование аксиом и предположения о нормальном характере распределения статистик по тесту приводит к фундаментальному соотношению классической теории тестов, связывающему дисперсию наблюдаемых баллов Sx2, дисперсию истинных баллов Sт2 и дисперсию ошибок измерения Sе2 согласно которому Sx2= Sт2+ Sе2,
где Sx2 , в свою очередь, состоит из двух слагаемых, одно из которых – наиболее важная общая часть дисперсии, составляющая основу корреляционных и дисперсионных методов исследования качества теста, а другое – специфическая часть. Принято счи тать, что общая часть определяется различиями в подготовке испытуемых, в то время как специфическая часть дисперсии порождается различиями в содержании заданий теста. Разделив на Sx2 почленно равенство, получим
Sx2/ Sx2 = Sт2 / Sx2 + Sт2/ Sx2, или Sт2 / Sx2 = 1 – Sе2/ Sx2
где следует понимать как среднее арифметическое дисперсий ошибок для различных испытуемых из генеральной совокупности, поскольку ошибка при оценке истинного балла будет меняться для различных испытуемых группы.
Естественно предположить, что чем ближе Sx2 к Sт2 , тем выше корреляция между множеством наблюдаемых баллов X и множеством истинных баллов T и, следовательно, тем надежнее тест. Поэтому отношение Sт2/ Sx2 = rн обычно трактуют как характеристику надежности теста.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.