Автор книги: Константин Гуревич
Жанр: Общая психология, Книги по психологии
сообщить о неприемлемом содержимом
Текущая страница: 26 (всего у книги 35 страниц)
Были случаи, когда сопоставление давало отрицательный результат, то есть получалась обратная линейная зависимость: чем успешнее выполняется тест, тем ниже была профессиональная успешность. Получались и высокие совпадения. Но картина в целом всегда оказывалась весьма запутанной. По Гизелли выходит, что коэффициент порядка 0,40 – это даже «законная» характеристика возможной валидности.
Дело, однако, не в том, может или не может удовлетворить психолога коэффициент валидности такого порядка. Дело в другом: каков логический смысл этого коэффициента, о чем он говорит психологу, какова сама процедура извлечения информации о практической действенности теста или совокупности тестов. При безумной игре коэффициентами эти реальные вопросы остаются в тени.
Психолог, получивший коэффициент валидности порядка 0,40, может объяснить этот высокий коэффициент тем, что тест или тесты, которые, как он убежден, действительно раскрывают важные для учебной и трудовой деятельности стороны психики, не затрагивают некоторых других ее сторон, также имеющих большое значение. Так, интеллектуальный тест не касается сферы мотивации. Вследствие этого нужное психическое качество может быть представлено в достаточной степени и оно могло бы обеспечить успешность, но сам испытуемый неактивен, деятельность, осуществляемая им, протекает на невысоком уровне мотивации, поэтому и объективные результаты ее ниже возможных. С другой стороны, можно построить такое же рассуждение, но с обратным знаком: качество представлено в едва-едва удовлетворительной степени, но заинтересованность велика; следствие – результат деятельности выше ожидавшегося. Итак, испытуемые из одного – психологического – ряда несколько смещаются тут и там, когда они переходят в другой – учебно-трудовой – ряд, где их оценивают по их объективным достижениям. Это смещение и приводит к упомянутому коэффициенту.
Нередко и другие соображения приводятся исследователями:
• недостаточно объективная характеристика успешности со стороны тех лиц, которые ведают учебной или трудовой оценкой – имеются в виду учителя, инструктора, руководство цехов и пр.;
• влияние на оценку таких факторов, которые не могут в полной мере учитываться психологом, исследующим психические качества (неправильная организация труда, мешающая выявить подлинные возможности испытуемого, неудовлетворительное оборудование, на котором испытуемый вынужден учиться или работать, и т. д.).
Видимо, каждому непредубежденному человеку ясно, что коэффициент более высокого порядка при таких условиях и в самом деле не может быть получен, а если его получают, то это можно объяснить каким-то маловероятным стечением обстоятельств, а отнюдь не высоким качеством теста. Складывается впечатление, что психолог, получивший коэффициент другого порядка (положим, на уровне 0,70), имеет больше причин для беспокойства, чем тот, кто получил традиционный 0,40, а то и меньше. В общем, для получения низкой связи между результатами теста или тестов и оценками успешности причин более чем достаточно.
Все это представляется вполне резонным. Однако коэффициент порядка 0,40 все-таки невысок, неясно, как же проверить действенность теста, как найти для этого разумный критерий.
Зарубежные психологи разработали специальные номограммы, наглядно показывающие, что если психолог пользуется для профессионального отбора тестом, который имеет коэффициент валидности даже порядка 0,10, то все-таки он приносит известную пользу предприятию, лишь бы коэффициент валидности не был ни нулевым, ни отрицательным. Не вдаваясь в собственно математическую сторону обоснований полезности тестов при низких положительных коэффициентах валидности, обратимся к их логической стороне. Ход рассуждения тут таков: если никакого отбора нет или, что то же самое, коэффициент валидности тестов равен нулю, то предприятие имеет равные шансы получить и годного, и непригодного работника. Вероятность успешности принятых работников составляет 0,5 (от единицы). Но даже незначительный коэффициент валидности увеличивает вероятность успешной работы вновь принятых, пусть и на небольшую долю. Чем выше коэффициент валидности, тем выше ожидается вероятность успешной деятельности лиц, принятых по их успешности в данном тесте. Такова логическая основа применения тестов даже с низкой валидностью (что она обязательно должна быть положительной, это явствует из тех же рассуждений). Изложенные здесь соображения, однако, ни в малейшей мере не проясняют другой стороны дела: почему психолог так безучастен по отношению к самой проверке теста на валидность?
Между тем если, приступая к проверке валидности, не довольствоваться сложившимися традиционными требованиями, то дело не покажется столь безнадежным. Много свежих идей относительно проверки валидности содержится в выдвинутом не так давно понятии «релевантного критерия», о чем нам уже приходилось писать (Гуревич К. М., 1970). При сопоставлении результатов тестирования с успешностью психологу рекомендуется пользоваться не оценкой руководителя, так как она, как это ясно всем, страдает множеством недочетов (избавиться от которых можно, лишь, вероятно, имея в качестве руководителя психолога-единомышленника), а реальным производственным показателем, на выявление которого направлен тест, скоростью выполнения определенного приема (приемов), точностью сенсорного различения, объективно оцениваемыми качествами принятого решения и т. п. Смысл применения релевантного критерия в том, чтобы найти в деятельности такие элементы или структуры, которые поддаются однозначной психологической интерпретации, так, чтобы эта интерпретация, выраженная в количественных и качественных характеристиках, могла выступить в виде оценочного ряда для сопоставлений.
Допустим, что такой релевантный критерий найден. Однако он еще не решает всех вопросов. В частности, остается вопрос мотивации – ведь хорошо или плохо работает не совокупность психических качеств, а человек, личность, заинтересованная в успехе своей деятельности. Решить такую задачу трудно, но нельзя от нее на этом основании отказываться. Так, можно при проверке валидности использовать специально отобранную группу высокомотивированных работников. Психолог, проверяющий валидность на неотобранной группе, заведомо затрудняет вывод логических заключений, к которым придет после своих сопоставлений. А задача его в том, чтобы их упростить.
Большие сомнения вызывает проверка «по одновременности» валидности тестов, предназначенных для отбора. Этот способ проверки состоит в том, что тестированию подвергается группа лиц уже работающих, уже имеющих опыт и достижения в изучаемой психологом деятельности. Неясностей в таком способе проверки более чем достаточно. Прежде всего, неизвестно, какими были эти ныне успешно выполняющие свою работу лица, когда они лишь начинали свою деятельность. Если речь идет об их психических качествах, таких как внимание, память, специальная интеллектуально-мыслительная деятельность, то ни один серьезный психолог не согласится с тем, что перечисленные и подобные им психические качества остались за время их деятельности неизменными. Бесспорно, что в деятельности происходил процесс развития, причем развития специфического, приноровленного к деятельности. Признав это, психолог оказывается перед новой задачей: а какой, собственно, уровень нужного качества необходим и достаточен, чтобы вступить в деятельность? Валидность, полученная на группе опытных людей высокого профессионального уровня, никак не дает оснований для решения вопроса о валидности для группы с полным отсутствием профессионального опыта. Группа профессионалов не репрезентативна для того, чтобы полученные на ней данные перенести на группу начинающих.
Высказанное выше сомнение не единственное. Допустим, что развитие высококвалифицированной группы признано. Однако столь же обязательно признать это развитие не только и даже не столько развитием «вообще», сколько нужно признать его развитием специальным. Актер умеет запоминать текст роли. Но это не значит, что он столь же успешно запомнит, положим, неперсонифицированный и эмоционально нейтральный текст научного сообщения. Память актера, как и любого другого профессионала, развивается в том направлении, которое дано его деятельностью. Поэтому испытание квалифицированных специалистов такими тестами, которые адресованы к функции неспециализированной, например, испытание у актеров памяти «вообще», может дать неожиданные результаты – может получиться так, что память актера, ежедневно запоминающего и воспроизводящего целые страницы текста, окажется хуже, чем память какого-либо другого специалиста. Валидность, проверяемая на выборке, составленной из профессионалов, окажется очень низкой или даже нулевой, хотя тест «вообще» исследует профессионально важную функцию. Допустим и другой путь – приближения психологического теста по его содержанию (по характеру заданий) к специфике профессиональных заданий; не лучше ли тогда перейти к рационально подготовленному тесту учета профессиональной успешности? Но применение такого рода теста означает, что психолог выявляет не что иное, как степень профессиональной подготовленности. Впрочем, иногда это и требуется.
Бывает, что психолог в погоне за приемлемым показателем валидности пробует и перебирает различные критерии и различные статистические приемы, окончательно упуская из виду логико-психологический анализ проверочной процедуры и забывая о доказательности полученных выводов. Этим, вероятно, отчасти вызывается застой в важнейшей области практической проверки значения психологических испытаний.
Между тем последовательное применение релевантных критериев на группах специалистов с высокой мотивацией и с различным стажем профессиональной деятельности могли бы привести к объективным оценкам валидности тестов, исследующих совокупность психических и психофизиологических признаков. На это требуются время и силы, но это один из способов разорвать порочный круг традиционного подхода к валидности.
В связи с изложенным необходимо сделать одно важное замечание. Все, что было сказано выше, относится к валидности по собственно психологическим диагностическим методикам. В области методик дифференциальной психофизиологии дело обстоит иначе, что обусловлено тем, что признаки, устанавливаемые методиками дифференциальной психофизиологии, отличаются стабильностью, устойчивостью. В дифференциально-психофизиологической литературе вопрос о валидности применительно к методикам этого рода нашел свое освещение (Гуревич К. М., 1970). Отметим, что корреляция, раскрывающая линейные связи, не может при проверке дифференциальных психофизиологических методик служить адекватным приемом проверки валидности. Может быть, неполная адекватность корреляции сказывается и при установлении валидности собственно психологических методик, но этот вопрос заслуживает особого рассмотрения. Дело тут опять-таки не в покорном использовании кем-то предписанной процедуры, а в творческом, разумном и обоснованном подходе к выбору статистических приемов. Сам по себе ни один статистический прием не может быть назван ни хорошим, ни плохим, как ни один логический прием также не может быть назван ни хорошим, ни плохим. Все дело в их правильном использовании, в том, насколько они правомерны в данных конкретных исследованиях, насколько отвечают поставленной задаче.
Выбор приемов, которые использовались психологами при установлении надежности и валидности, носит отпечаток определенного психологического мировоззрения, весьма далекого от современного.
Психологическая позиция, выдвинувшая эти приемы, – это позиция метафизического понимания психических процессов, функций и качеств: все эти психические реальности как бы признаются неизменными. Встанем на время на эту позицию. Тогда нам станет ясно, что для проверки надежности нет лучшего приема, чем корреляции повторного тестирования через какой-то промежуток времени. С этой же позиции можно утверждать, что лица, которые сформировались как профессионалы, остались по своим психическим качествам такими же, какими они были, когда они лишь приступали к своей профессиональной деятельности. Возможно, что этот метафизический подход и затормозил творческое использование статистических приемов как аппарата доказательств современной психологической диагностики.
Одно из наиболее ярких выражений определенных теоретических воззрений в психологической диагностике связано с проблемой так называемой нормы.
В любом диагностическом исследовании психолог нуждается в том, чтобы как-то классифицировать испытуемых, входящих в экспериментальную выборку. Для этой цели используются различные статистические приемы, техническая сторона которых не может нас в этом сообщении занимать. Смысл этих приемов в том, чтобы в делении на группы не было субъективного произвола. Чтобы избежать этого, можно, например, использовать в качестве критерия особую статистическую величину – так называемое квадратическое отклонение, величину, которую в западной литературе именуют «стандартным отклонением». В принципе, использование этой величины ничего противозаконного в себе не содержит, квадратическое отклонение при нормальном распределении столь же удобно, как и перцентиляжные величины, предполагающие при других видах распределения деления ряда по его процентным соотношениям.
Если говорить о чисто статистической стороне дела, то она в самых общих чертах состоит в том, что среднее квадратическое отклонение есть величина, относящаяся к определенному виду распределения, именно к нормальному распределению, с кривой, напоминающей колокол. Нам в данном случае важно заметить одно весьма существенное для дальнейших рассуждений обстоятельство: нормальное распределение характерно для большинства биологических явлений. Возьмем, например, в качестве предмета изучения рост каких-нибудь особей – мышей, жуков, колосьев определенного вида, – если изучаемая выборка будет достаточно велика и представительна, то в каждом случае мы с большой вероятностью можем полагать, что получим нормальное распределение: очень большие и малые экземпляры будут представлены в небольших количествах, а экземпляры среднего – для данного вида – роста будут наблюдаться в относительно большом количестве. Чтобы графически отразить полученное распределение, нужно по оси абсцисс отложить единицы измерения, а по оси ординат – число случаев, приходящихся на каждую единицу. Это будет нормальное распределение, если график имеет форму колокола.
Ранее мы уже отмечали, что широкое применение психодиагностических методик было ознаменовано тем, что их стали также «подгонять» под нормальное распределение. Слово «подгонять» тут поставлено не случайно. Тесты именно подгоняли, чтобы получить нормальное распределение. Начал применять этот способ «совершенствования» тестов Термен из Стенфордского университета в США, когда он взялся за переработку шкалы Бине. Каждый хоть немного знакомый со статистикой и теорией вероятности психолог знает, что нормальное распределение сильно упрощает обработку и всю последующую технику использования результатов тестирования.
В частности, одно из преимуществ нормального распределения состоит в том, что открывает возможность использования «стандартного отклонения», которое дает определенные основания для разбиения выборки на группы. Известно, что при нормальном распределении в пределах х ± Узо должно находиться 50 % всех случаев, имеющихся в данной совокупности или выборке (х и, соответственно средняя арифметическая и стандартное отклонение).
Норма для измерений признака будет находиться в этих границах. Это означает, другими словами, что в этих границах заключена та часть совокупности или выборки, которую можно считать наиболее типичной, характерной для нее. Когда распределение имеет форму колокола, оно симметрично, поэтому 25 % случаев окажутся за пределами нормы, превосходя ее, а 25 % также за пределами нормы, но будучи ниже ее, не достигая ее. При необходимости, пользуясь тем же стандартным отклонением, можно прибегнуть и к более дробному делению на группы, можно устанавливать границы групп, отделяя в ту и другую сторону от среднего арифметического по 0,5, и т. п.
Вернемся к делению совокупности или выборки на три группы. Исследователь, получивший по интересующему его признаку нормальное распределение, заранее постулирует, что в границы нормы войдет лишь часть взятой им выборки. Как должны толковаться по отношению к этой норме обе оставшиеся группы?
Такое толкование обычно приводит к смешению понятий собственно статистических и бытовых, неправомерно вошедших в психологию. Характеристики «выше нормы» и «ниже нормы», когда их относят к психологическим признакам, в особенности к результатам интеллектуальных тестов, приобретают общепонятный, но при этом лишенный научного содержания смысл. Так, можно сделать вывод – и он действительно делается, – что по признакам, которые измеряются интеллектуальными тестами, 25 % всего человечества находятся «ниже нормы»! И иногда в группу «ниже нормы» включают как людей аномальных, так и здоровых, но якобы недостаточно умных.
Понятие нормального распределения вошло в психологическую диагностику вместе с тестами Стэнфорд – Бине. Вообще говоря, вряд ли можно возражать против того, чтобы распределение результатов тестирования было «подогнано» каким-нибудь способом, например специальным подбором задач к нормальному распределению. Но после того, как это сделано, кривые распределения следует рассматривать только со стороны приобретенных ими формальных технических преимуществ – их удобно разбивать на группы, они пригодны для корректного применения к ним некоторых эффективных формул для установления значимых связей и различий (по Пирсону – Браве, по Стьюденту и т. п.). Во многих случаях преимущества, получаемые при нормальном распределении, очевидны и бесспорны. Но, пользуясь ими, нельзя забывать, что сама-то нормальность распределения создана, так сказать, руками исследователя.
В психологической диагностике, поскольку она занимается измерениями явлений психики, зависящих от социального опыта испытуемых, нормальное распределение результатов тестирования не может быть правилом, а может быть лишь исключением. Если уж оно получилось, то причины его нужно специально выяснять, его нельзя толковать как проявление «закона природы», который не нуждается в объяснении, а сам все объясняет. В явлениях, детерминируемых законами социальной жизни, не имеет решающего значения игра тех сил, от которых зависит нормальное распределение биологических явлений.
Поэтому и интерпретация группировок, выделенных при распределении, должна быть весьма условной. И характеристики групп – «норма», «ниже нормы», «выше нормы» – имеют не бытовое, а формальное и условное значение.
Общество состоит из классов, социальных групп. Законы развития людей, входящих в эти группы, – это не имманентные законы самой психики, а законы социальные. Кривую нормального распределения можно получить, если брать в должной пропорции представителей разных по образованию социальных групп.
Весьма сомнительна подобная операция с точки зрения статистики. Ведь это представители групп, имеющих различный опыт, различное образование – оно нередко оказывается одним из решающих факторов успешности в тестовых психологических испытаниях, – как же можно их объединять в одну совокупность? Статистика говорит, что нельзя объединить в совокупность группы, которые имеют существенные различия между собою по измеряемому признаку.
Психологу не нужно доказывать, что люди, находящиеся в неодинаково благоприятных для развития условиях, вследствие этого и в самом деле развиваются неодинаково. Применяя же к ним – притом неправомерно – бытовое понятие нормы, рассуждение нужно строить наоборот: эти люди неодинаковы по развитию, и поэтому они находятся в неодинаково благоприятных условиях для развития.
Автор известной шкалы Д. Векслер пишет, что он старался подобрать для стандартизации своих тестов такую выборку, которая отражает те же пропорции различных групп населения, которые представлены в населении США: «Выборка, подобранная для стандартизации, должна представлять столь похоже, как возможно, ту популяцию, для которой предназначены тесты» (Wechsler D., 1955).
Подобрав такую выборку, Д. Векслер получил распределение, близкое к нормальному. Вот как поступил автор. Он выделил и соответственно представил в экспериментальной выборке, предназначенной для стандартизации тестов, пять образовательных групп: до 8 лет обучения; от 9 до 11 лет; 12 лет; от 13 до 15 лет и 16 и выше лет обучения. Образовательный уровень в США обычно прямо связан социально-экономическим статусом, о чем автор не говорит.
Среди испытуемых, подобранных для стандартизации шкалы, для мужчин в возрасте 20–24 года было:
• прошедших до 8 лет обучения – 25 %;
• от 9 до 11 лет обучения – 23 %;
• 12 лет обучения —30 %;
• от 13 до 15 лет обучения —16 %;
• 16 и более лет обучения – 6 %.
Эти пропорции соответствуют общеамериканским. Они дают, если разбить выборку на те же группы, которые были нами ранее использованы в рассмотренном примере, такое разбиение:
• обучение до 8 лет – 25 %;
• от 9 до 12 лет – 53 %;
• 13 и более – 22 %.
Автор шкалы получил распределение, близкое к нормальному. Но это достигнуто тем, что люди, относящиеся к различным социальным и образовательным группам, были неправомерно объединены в одну выборку и по их данным, что столь же неправомерно, выведена общая норма.
Речь не идет о том, что при обработке данных, полученных с помощью психологических методик, нельзя пользоваться «стандартным отклонением», нельзя разбивать испытуемых на группы и т. п. Речь идет о том, что при проведении всех таких статистических операций нельзя забывать и о содержательной стороне психологической диагностики.
Об общечеловеческих психологических стандартах правомерно говорить только при сравнении людей физически здоровых с людьми аномальными. Когда понятие нормы, полученное путем выделения некоторой средней представительной группы, начинает применяться в отношении социально неоднородных групп здоровых психически людей, то с таким решением нельзя согласиться. Совершенно ясно, что группы людей с различным социально-психологическим опытом имеют свои особенные характеристики по психологическим признакам и ставить их по результатам тестирования в один и тот же иерархический ряд недопустимо.
Проблема нормы обсуждается и в тестологической литературе. Ли Кронбах полагает, что от этого понятия в ряде случаев вообще следует отказаться. Он считает, что важно дать характеристику того, что умеет ребенок, достигший определенных результатов по тесту, а не ссылаться на его место в распределении относительно нормы. Видимо, суть дела должна быть выражена так: результаты по тесту следует сопоставлять с возможностями выполнения некоторых конкретных учебных и профессиональных задач, чтобы установить, какие из них посильны для лиц с теми или другими баллами по тесту. Как считает Л. Кронбах, полученный балл не должен рассматриваться и как предел достижений данного лица, то есть этот автор придает тесту диагностическое, а не прогностическое значение (Cronbach L., 1972).
Все отчетливее вырисовывается некоторый общий подход к оценкам самих тестов как инструмента психологической диагностики и лиц, прошедших тестирование, не по имманентным критериям, а по результатам сопоставлений со значимыми критериями. Можно полагать, что для этого понадобится применение – для большего числа случаев – новых статистических приемов, вероятно – уравнений регрессии. Использование их поможет статистике выступить в своей роли аппарата доказательства психологической диагностики.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.