Электронная библиотека » Даниэль Канеман » » онлайн чтение - страница 10


  • Текст добавлен: 10 января 2022, 15:07


Автор книги: Даниэль Канеман


Жанр: Прочая образовательная литература, Наука и Образование


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 10 (всего у книги 39 страниц) [доступный отрывок для чтения: 11 страниц]

Шрифт:
- 100% +
Голдберг: ваша модель одерживает над вами верх

Выводы Мила поднимают важные вопросы. Почему, собственно, формула побеждает? Что именно она делает лучше? Хотя по сути следовало бы задаться вопросом: а что именно люди делают хуже? Ответ прост – люди во многих отношениях слабее статистических моделей. И одна из критических слабостей состоит в том, что суждения людей подвержены влиянию шума.

Чтобы подтвердить этот вывод, обратимся к другому направлению в исследовании простых моделей, которое берет начало в городке Юджин, штат Орегон. Пол Хофман был состоятельным человеком и мудрым психологом, а еще не следовал установленным в науке правилам. Он основал научно-исследовательский институт, где собрал под одной крышей нескольких чрезвычайно эффективных ученых, превратив Юджин во всемирно известный центр изучения оценок и прогнозов.

Одним из этих исследователей был Льюис Голдберг, известность которому принесла ведущая роль в разработке модели личности, получившей название «Большой пятерки». В конце 1960-х годов106, развивая идеи ранних работ Хофмана, Голдберг изучал статистические модели, описывающие суждения людей.

Построить «модель эксперта» почти так же просто, как и любую отражающую реальность модель. Используются те же прогностические факторы. В нашем исходном примере это пять рейтингов менеджеров. Используется тот же инструмент – множественная регрессия. Вот только целевая переменная другая. Вместо прогнозирования реальных результатов работы формула применяется к прогнозированию оценочных суждений – к примеру, ваши оценки Моники, Натали и других менеджеров.

Сама идея моделирования ваших суждений как расчета средневзвешенной величины может показаться весьма странной. Разве так формируется ваше мнение? Когда вы думаете – в клиническом смысле – о Монике и Натали, вы не применяете к каждой из них одно и то же правило. Более того, вы вообще не применяете никаких правил. «Модель эксперта» не является реалистичным описанием вашего мыслительного процесса.

Однако, даже если вы ничего не вычисляете по линейной формуле, вы можете давать свои оценки, как если бы занимались вычислениями. Опытные игроки в бильярд бьют по шару так, словно решают в уме сложные уравнения107, описывающие механику каждого отдельного удара. Подобно им и вы можете выдавать прогнозы, будто пользуетесь простой формулой – хотя на деле решаете намного более сложные задачи. Условная модель, построенная по принципу «если бы», которая с приемлемой точностью прогнозирует, что станут делать люди, вполне пригодна, даже когда она явно не подходит в качестве описания процесса. Это довод в пользу простых моделей. Комплексный обзор исследований выявил, что в 237 случаях средняя корреляция между «моделью эксперта» и клиническими оценками составила 0,8 (ПС=79 %). Пусть не идеальный, однако довольно высокий результат108 в поддержку условной модели.

Вопрос, который побудил Голдберга заняться исследованиями, звучал так: насколько хорошо простая «модель эксперта» может прогнозировать реальные результаты? Поскольку модель является грубой аппроксимацией человека, было бы разумно допустить, что не очень хорошо. А много ли мы теряем в точности, когда модель заменяет человека?

Ответ может вас удивить. Прогнозы не стали менее точными, когда их генерировала модель. Наоборот, точность повысилась. В большинстве случаев модель обошла профессионалов, работу которых имитировала. Эрзац оказался лучше оригинального продукта.

Этот вывод был подтвержден исследованиями в различных сферах. Первые повторения109 опытов Голдберга включали в себя прогнозы успехов выпускников средних школ. Исследователи дали задание 98 участникам спрогнозировать средний балл 90 старшеклассников на основе десяти ключевых факторов. На базе прогнозов исследователи построили линейную модель каждого участника и сравнили, насколько точно спрогнозировали средний балл участники и модели. Для каждого из 98 участников эксперимента модель оказалась лучше! Десятилетия спустя сводный обзор исследований за минувшие полстолетия110 заключил, что модели стабильно превосходили экспертов, работу которых моделировали.

Мы не знаем, получали ли участники исследований обратную связь. Однако представьте свое смятение, если кто-то скажет вам, что грубая модель ваших оценочных суждений – практически карикатура – оказалась в действительности более точной, чем вы сами! Для большинства из нас процесс вынесения оценок является сложным, многогранным и интересным именно потому, что не сводится к простым правилам. Мы гордимся собой и своей способностью делать прогнозы, когда создаем и применяем сложные правила или задействуем свою интуицию, выделяя отдельный случай на фоне остальных – короче говоря, когда даем оценки, которые не сводятся к тупому вычислению средневзвешенного значения. Изучение «модели эксперта» подкрепляет выводы Мила о бесполезности искусных умозаключений. Зачем впустую напрягать ум? Сложность и многогранность необязательно приводят к повышению точности прогнозов.

В чем же дело? Чтобы разобраться в выкладках Голдберга, нам нужно понять, в чем различия между вами и «вашей моделью». Что является причиной расхождений между вашими реальными оценками и результатом, который выдает простая модель?

Статистическая модель ваших оценок не может добавить ничего к заложенной в нее информации. Все, что под силу модели, – вычитать и упрощать. В частности, простая модель не будет формировать никаких сложных правил, которых придерживаетесь вы. Если вы думаете, что разница между 10 и 9 баллами при оценке коммуникативных навыков более значима, чем разница между 7 и 6 баллами, или кандидат, набравший твердые 7 баллов по каждому из параметров, предпочтителен кандидату, получившему те же 7 баллов в среднем, однако имеющему очевидные сильные стороны и явно выраженные слабые, то «ваша модель» не будет копировать ваши сложные правила – даже если вы сами применяете их с образцовым постоянством.

Отказ от следования вашим изощренным правилам приведет к потере точности только в том случае, если ваши догадки верны. Допустим, вам нужно спрогнозировать чью-то успешность в решении сложных задач, имея на входе два параметра – навыки и мотивацию. Взять формулу и вычислить средневзвешенное значение тут недостаточно, потому что никакая мотивация не восполнит серьезный дефицит навыков – и наоборот. Если вы используете более сложную комбинацию входных параметров, то точность ваших прогнозов повысится и станет больше, чем у модели, которая не в состоянии проявить подобную гибкость. С другой стороны, сложные правила зачастую дают вам лишь иллюзию достоверности и фактически наносят ущерб качеству ваших предположений. Некоторые хитрые комбинации действительно эффективны, однако в большинстве из них нет смысла.

К тому же простая «модель эксперта» не будет воспроизводить внутриэкспертный шум в ваших прогнозах. Она не сможет воспроизвести отклонения в ту или иную сторону, возникающие в результате ваших непредсказуемых реакций, от которых вы не застрахованы в каждом конкретном случае. Никакая модель не подвержена влиянию обстановки и вашего психического состояния в момент прогноза. Скорее всего, эти шумовые ошибки в оценках ни с чем систематически не коррелируют, а это значит, что в большинстве случаев они могут рассматриваться как случайные.

Следствием устранения шума из ваших оценок всегда будет повышение точности ваших прогнозов111. Предположим, например, что корреляция между вашими прогнозами и фактическим результатом составляет 0,5 (ПС=67 %), однако 50 % расхождений состоят из шумов. Если полностью устранить шум из ваших оценок – то есть создать вашу идеальную модель, – то корреляция с тем же фактическим результатом подскочит до 0,71 (ПС=75 %). Другими словами, сокращение шума автоматически повышает достоверность прогнозов.

Итак, если заменить вас моделью, произойдут две вещи: устранение вашей изобретательности и устранение ваших внутриэкспертных шумовых помех. Грубый вывод, что «модель эксперта» более эффективна, чем сам эксперт, несет в себе важное послание: преимуществ громоздких правил, используемых человеком – если таковые существуют, – в большинстве случаев недостаточно, чтобы компенсировать негативное воздействие шума. Вам может казаться, что вы более искусны, более проницательны и более чувствительны к нюансам, чем линейная карикатура вашего мыслительного процесса. А на самом деле в ваших суждениях больше шума.

Почему же сложные правила вредят точности прогнозов, хотя мы упорно верим, что они помогают проникнуть в самую суть? Прежде всего, большинство сложных правил, применяемых людьми, далеко не всегда верны. Однако есть и другая проблема: даже если сложные правила верны в принципе, они неизбежно применяются в условиях, которые нечасто наблюдаются на практике. Например, вы сделали вывод, что приема на работу достойны уникальные в своем роде кандидаты, даже если по остальным параметрам они показывают посредственные результаты. Только вот незадача: уникальные кандидаты, как следует из определения, встречаются крайне редко. Поскольку подсчитать уникальность в баллах – дело неблагодарное, то бо́льшую часть высоких оценок по этому показателю можно отнести к везению, и действительно талантливый соискатель часто остается за бортом. Оценки эффективности, которые могут подтвердить, что подобный «оригинал» в будущем станет суперзвездой, так же несовершенны. Погрешности измерения с обоих полюсов неизбежно снижают достоверность прогнозов, и те самые редкие случаи, вероятнее всего, будут пропущены. Преимущества верных догадок быстро тонут в погрешности измерения.

Мартин Ю и Нейтан Канцел в своих исследованиях112 изложили более радикальную версию доказательств Голдберга. В своей работе (на ее базе мы составили пример Моники и Натали) они пользовались данными, полученными от международной консалтинговой фирмы, которая привлекла экспертов для оценки 847 кандидатов на руководящие должности, по трем отдельным выборкам. Эксперты выставили баллы по семи параметрам и, используя свои клинические оценки, определили общий предиктивный балл. Результаты получились крайне невыразительными.

Ю и Канцел решили сравнить экспертов не с лучшей простой «моделью эксперта», а со случайной линейной моделью. Они сгенерировали десять тысяч наборов случайных значений по семи прогностическим параметрам и, используя десять тысяч случайных формул113, спрогнозировали результаты будущей деятельности кандидатов.

Исследователи сделали поразительное открытие: любая линейная модель, примененная последовательно ко всем случаям, вероятнее всего, одержит верх над человеком в прогнозировании результатов на основе той же информации. В одной из трех выборок 77 % из десяти тысяч случайных линейных моделей оказались точнее, чем эксперты. В двух остальных выборках превзошли человека 100 % случайных моделей. Или, попросту говоря, в данном эксперименте оказалось практически невозможно сгенерировать простую модель, которая работала бы хуже экспертов.

Из эксперимента следуют более серьезные выводы, чем из работ Голдберга с моделями экспертов, – и в самом деле, случай из ряда вон. В данных исследованиях эксперты выступили крайне слабо в абсолютном выражении, что помогает объяснить, почему их превзошли даже заурядные линейные модели. Конечно, из этого не следует, что любая модель совершеннее любого человека. И все же тот факт, что механическое следование любому простому правилу (Ю и Канцел назвали его «бессознательная логика») может существенно повысить точность оценок в сложных задачах, иллюстрирует ощутимое влияние шума на достоверность клинических прогнозов.

Наш краткий обзор показал, как шум ухудшает качество клинических оценок. Над человеком легко одерживают победу простые формулы – модели реальности, «модели экспертов» и даже случайно сгенерированные модели. Это открытие свидетельствует в пользу «бесшумных» методов. Такие правила и алгоритмы мы рассмотрим в следующей главе.

К разговору об оценках и моделях

«Люди уверены, что они используют комплексный подход и проявляют изобретательность, вынося свои оценки. Однако сложность и изобретательность большей частью напрасная трата сил – обычно они не помогают превзойти точность простых моделей».

«Даже по прошествии более шестидесяти лет после выхода книги Пола Мила нас по-прежнему шокирует сама мысль о том, что механическое прогнозирование одерживает верх над человеком».

«В оценках столько шума, что «бесшумная» модель эксперта добивается более точных прогнозов, чем собственно эксперт».

Глава 10
«Бесшумные» правила

В последние годы искусственный интеллект (ИИ), особенно на основе методов машинного обучения, позволил компьютерам выполнять множество задач, которые ранее считались доступными только человеку. Алгоритмы на основе методов машинного обучения распознают лица, переводят с одного языка на другой и расшифровывают рентгеновские снимки. Они могут решать вычислительные задачи – например, генерировать управляющие команды для тысяч механизмов одновременно с поразительной скоростью и точностью. Эти алгоритмы выполняют сложные задачи по прогнозированию: предугадывают решения Верховного суда США, определяя, какие из обвиняемых с наибольшей вероятностью будут выпущены под залог, и оценивают, какие из звонков в органы опеки требуют незамедлительного приезда социального работника.

Хотя в наше время, слыша слово «алгоритм», мы подразумеваем компьютерные программы, термин имеет более широкое значение. В словаре алгоритм определяется как «процесс или набор правил, описывающий порядок действий при вычислениях или при решении других задач, в частности с использованием компьютера». Согласно данному определению, простые модели и другие виды механического прогнозирования, описанные нами в предыдущей главе, также являются алгоритмами.

По сути, большинство типов механических подходов к решению задач, от почти смехотворных простых правил до утонченных и непостижимых машинных алгоритмов, превосходят экспертные оценки. И одна из основных – хотя и не единственных – причин этого превосходства состоит в том, что все механические подходы свободны от шума.

Чтобы изучить различные типы подходов на основе алгоритмов и понять, как и при каких условиях каждый из них может быть полезен, мы начнем наш обзор с моделей из главы 9: простых моделей на базе множественной регрессии (то есть линейных регрессивных моделей). От этой отправной точки мы двинемся в двух противоположных направлениях – сначала поищем крайнюю простоту, а затем перейдем к повышенной сложности (рисунок 11).


Рис. 11. Четыре типа правил и алгоритмов

Больше простоты: грубые и прекрасные

Робин Доуз был еще одним членом команды из Юджина, штат Орегон, которая в 1960-е и 1970-е годы изучала прогнозирование. В 1974 году Доуз добился прорыва в упрощении задач прогнозирования. Ему пришла на ум поразительная и почти еретическая идея: вместо использования множественной регрессии для определения точного веса каждого прогностического фактора он предложил придать всем им равный вес.

Доуз назвал свою равновесную формулу неточной линейной моделью. Его удивительное открытие состояло в том, что равновесные модели практически так же точны, как и «правильные» линейные модели, и далеко опережают клинические прогнозы114.

Даже сторонники неточных моделей соглашаются, что это утверждение неправдоподобно и «противоречит статистической интуиции»115. Более того, Доузу и его ассистенту Бернарду Корригану вначале пришлось побороться за публикацию своей работы в научных журналах; издатели им попросту не верили. Если вы вспомните пример Моники и Натали в прошлой главе, то, скорее всего, поверите, что одни прогностические факторы более весомы, чем другие. Многие люди, к примеру, придадут большее значение лидерским качествам, чем техническим навыкам. Как тупое, невзвешенное среднее может спрогнозировать чьи-то успехи лучше, чем тщательно вычисленное средневзвешенное значение? Или лучше, чем признанный эксперт?

Сегодня, спустя много лет после прорыва Доуза, так удивлявший его современников статистический феномен хорошо изучен. Как мы уже объяснили ранее в этой книге, множественная регрессия вычисляет «оптимальные» весовые коэффициенты, которые минимизируют квадратичные ошибки. Однако при этом ошибки минимизируются в исходных выборочных данных. Таким образом формула корректирует сама себя, чтобы предугадать всякую случайную флуктуацию в данных. Например, если какие-то из менеджеров в выборке обладают хорошо развитыми техническими навыками, то в случае высоких показателей по другим, не связанным с ними показателям модель преувеличит вес технических навыков.

Проблема в том, что, когда формула применяется вне выборки – то есть для других наборов данных, – присвоенные таким образом веса уже не будут оптимальны. Флуктуации, имевшие место в первоначальной выборке, больше не присутствуют – на то они и случайности; не все менеджеры с хорошо развитыми техническими навыками являются суперзвездами. А в новой выборке уже другие флуктуации, которые формула не может учесть. Истинная мера точности модели – ее приспособляемость к новой выборке, иначе говоря, способность к корреляции с перекрестной проверкой. Действительно, регрессивная модель слишком успешно работает в оригинальной выборке, в то время как при наличии перекрестной проверки корреляция почти всегда ниже, чем она была в исходных данных. Доуз и Корриган сравнивали равновесные модели с моделями на основе множественной регрессии (с перекрестной проверкой) в различных ситуациях. Рассматривался типичный случай: прогнозирование среднего балла в первый год обучения для 90 студентов факультета психологии в Иллинойском университете; использовались десять переменных, имеющих отношение к успеваемости: результаты тестов на выявление способностей, отметки в колледже, различные субъективные оценки ровесников (например, степень экстраверсии), а также самооценка (например, добросовестности). Стандартная модель на основе множественной регрессии показала корреляцию 0,69, а наличие перекрестной проверки ухудшило результат до 0,57 (ПС=69 %). Корреляция равновесной модели со средним баллом осталась примерно такой же: 0,60 (ПС=70 %). Похожие результаты116 были получены и во многих других исследованиях.

Модели с перекрестной проверкой показывают наихудший результат, когда оригинальная выборка слишком мала, поскольку флуктуации в маленьких выборках принимают угрожающие размеры. Доуз обнаружил проблему: используемые в социологических исследованиях выборки обычно настолько малы, что теряется все преимущество так называемого оптимального взвешивания. Недаром статистик Говард Уэйнер снабдил научную статью, посвященную расчету правильных весов, подзаголовком «Нам без разницы»116а. Или, как говорил Доуз, «нам не нужны117 модели настолько точные, что мы эту точность не можем измерить». Равновесные модели работают хорошо, потому что они нечувствительны к специфике конкретной выборки.

Непосредственные выводы из работ Доуза получили заслуженное признание: вы можете давать эффективные статистические прогнозы, ничего не зная наперед об аналогичных предшествующих результатах. Все, что вам нужно, – это набор прогностических факторов, относительно которых вы можете быть уверены, что они коррелируют с конечным результатом.

Предположим, вам нужно спрогнозировать эффективность работы менеджеров, которым присвоены рейтинги по некоторому количеству параметров, как в примере из главы 9. Вы уверены, что набранные баллы оценивают определенные компетенции кандидатов, однако не имеете данных о том, насколько хорошо они прогнозируют будущий успех. Вы также не можете позволить себе роскошь ждать несколько лет, чтобы отследить успехи большой выборки менеджеров. Однако вы можете взять баллы по семи параметрам, проделать необходимую статистическую работу, чтобы присвоить им равные веса, и использовать результат в качестве прогноза. Насколько хороша эта равновесная модель? Ее корреляция с конечным результатом118 составляет 0,25 (ПС=58 %), что намного превосходит клинические оценки (r=0,15, ПС=55 %) и уверенно приближается к регрессивной модели с перекрестной проверкой. При этом вам не требуется никаких дополнительных данных, которых у вас нет, и никаких сложных вычислений.

Действительно, в равных весах есть «грубая красота»119 – недаром высказывание Доуза стало мемом среди студентов. Заключительная фраза знаменитой статьи, которая ввела в обиход идею, содержала очередное лаконичное резюме: «Вся хитрость в том120, чтобы выбрать нужные переменные и правильно их сложить».


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 9 10 11 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации