Автор книги: Леонард Млодинов
Жанр: Зарубежная образовательная литература, Наука и Образование
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 11 (всего у книги 18 страниц)
Погрешность измерения становится еще более серьезной проблемой, когда количественные показатели приписываются субъективно, как в случае с сочинением Алексея. Например, группа исследователей в Пенсильванском университете Клэрион собрала 120 курсовых работ и проверила их с таким тщанием, с каким работы вашего ребенка не будут проверяться никогда: каждую курсовую независимо друг от друга оценивали восемь сотрудников факультета. Итоговые оценки (по шкале от A до F) иногда различались на два и более деления шкалы. В среднем различие между ними составило около одного деления шкалы[138]138
Legene Quesenberry et al., “Assessment of the Writing Component within aUniversity General Education Program”, November 1, 2000; http://wac.colostateedu/aw/articles/quesenberry2000/quesenberry2000.pdf.
[Закрыть]. Поскольку будущее студентов очень часто зависит от подобного рода оценок, столь высокая погрешность – факт довольно печальный. Однако ее можно понять, если учесть, что взгляды и философия профессоров любого факультета в любом из университетов охватывают весь диапазон от Карла Маркса до Граучо Маркса. Можно ли подвергнуть этот фактор контролю? Например, дать экзаменаторам четкие критерии оценивания и потребовать следования этим критериям? Исследователь в университете штата Айова предъявил около 100 студенческих работ группе аспирантов, специалистов в области риторики и коммуникации, которых заранее обучил применению подобных критериев[139]139
Kevin Saunders, “Report to the Iowa State University Steering Committee on the Assessment of ISU Comm-English 105 Course Essays”, September 2004; www.iastate.edu/isucomm/InYears/ISUcomm_essays.pdf (accessed 2005; site now discontinued).
[Закрыть]. Каждую работу оценивали по шкале от 1 до 4 два независимых «экзаменатора». При сопоставлении оценок выяснилось, что мнения экзаменаторов совпали лишь примерно в половине случаев. Аналогичные результаты были получены в Техасском университете при анализе оценок за вступительное сочинение[140]140
University of Texas, Office of Admissions, “Inter-rater Reliability of Holistic Measures Used in the Freshman Admissions Process of the University of Texas at Austin”, February 22, 2005; http://www.utexas.edu/student/admissions/research/Inter-raterReliability2005.pdf.
[Закрыть]. Даже почтенная Центральная приемная комиссия признается, что в случае двух экзаменаторов, согласно ее ожиданиям, «92 % сочинений получат оценки, различающиеся в пределах +/–1 балла по шестибалльной шкале для сочинений»[141]141
Emily J. Shaw and Glenn B. Milewski, “Consistency and Reliability in the Individualized Review of College Applicants”, College Board, Office of Research and Development, Research Notes RN-20 (October 2004): 3; http://www.collegeboardcom/research/pdf/RN-20.pdf.
[Закрыть].
Еще одна область субъективных измерений, которым доверяют больше, чем следовало бы – оценка вин. В 1970-х гг. винный бизнес явно не переживал расцвета, а если и развивался, то преимущественно в сфере продаж дешевого столового вина. Однако в 1978 г. произошло событие, с которым часто связывают последующее стремительное развитие отрасли: некий юрист, Роберт М. Паркер-младший, объявил себя экспертом в области вин и решил, что вдобавок к своим публикуемым в прессе критическим обзорам будет давать винам количественную оценку по стобалльной шкале. Со временем большинство изданий, печатавших материалы о винах, последовали его примеру. На сегодняшний день американцы ежегодно выкладывают за винную продукцию более 20 млрд долларов, однако же среди миллионов любителей спиртных напитков редко когда найдется простак, который согласится раскошелиться, не взглянув предварительно на рейтинг приглянувшегося ему вина. Поэтому, когда журнал «Вайн Спектейтор» выставил, скажем, аргентинскому каберне-совиньону «Валентин Бьянки» 2004 г. не 89, а 90 баллов, этот единственный балл привел к огромному увеличению объема продаж «Валентин Бьянки»[142]142
Gary Rivlin, “In Vino Veritas”, New York Times, August 13, 2006.
[Закрыть]. В самом деле, заглянув в местную винную лавку, американец обнаружит, что вина, выставленные на распродажу со скидкой, как правило, получают оценки на один или несколько баллов ниже 90. Но какова вероятность того, что аргентинское каберне «Валентин Бьянки» 2004 г., удостоенное 90 баллов, не получило бы 89, если бы процесс оценивания был повторен, предположим, час спустя?
В увидевшей свет в 1890 г. книге «Принципы психологии» Уильям Джеймс выдвинул предположение: умение разбираться в винах может дойти до способности различить вкус старой мадеры из верхней и нижней части бутылки[143]143
William James, The Principles of Psychology (New York: Henry Holt, 1890), p. 509.
[Закрыть]. Во время дегустаций вин, на которых мне нередко доводилось бывать, я заметил, что если бородач слева от меня бормочет: «Прекрасный букет!», его поддерживает целый хор голосов. Но если оценивать предлагается самостоятельно и без обсуждений, то зачастую оказывается, что бородач написал «Прекрасный букет», его бритоголовый сосед нацарапал «Вообще никакого букета», а блондинка с перманентом пометила: «Интересный букет с оттенками петрушки и свежевыдубленной кожи».
С теоретической точки зрения, есть множество оснований поставить под сомнение результаты оценивания вин. Для начала скажем, что вкусовые ощущения определяются сложным взаимодействием между вкусовыми и обонятельными стимулами. Строго говоря, любое вкусовое ощущение определяется пятью типами рецепторов, располагающихся на поверхности языка: рецепторами соленого, сладкого, кислого, горького и «мясного» (умами[144]144
Вкус белковых веществ, «пятый вкус», традиционно используемый в японской и других культурах Дальнего Востока. Ощущение «умами» создают глутамат и другие аминокислоты.
[Закрыть]). Последняя группа рецепторов соотносится с определенными аминокислотами (преобладающими, например, в соевом соусе). Но если бы этим все и ограничивалось, то вкус любой пищи – например, вашего любимого бифштекса, жареной картошки, праздничного яблочного пирога и изысканных спагетти по-болонски – можно было бы имитировать, используя лишь столовую соль, сахар, уксус, хинин и глутамат натрия. К счастью, этим дело не обходится, и на помощь приходит обоняние. Именно оно объясняет, почему, если взять два стакана с одинаковым раствором сахара и добавить в один из них клубничную эссенцию (не содержащую сахара), жидкость в этом стакане покажется вам слаще[145]145
Robert Frank and Jennifer Byram, “Taste-Smell Interactions Are Tastant and Odorant Dependent”, Chemical Senses 13 (1988): 445–55.
[Закрыть]. Вкус вина определяется воздействием от 600 до 800 изменчивых органических составляющих на рецепторы как языка, так и носа[146]146
A. Rapp, “Natural Flavours of Wine: Correlation between Instrumental Analysis and Sensory Perception”, Fresenius’ Journal of Analytic Chemistry 337, no. 7 (January 1990): 777–85.
[Закрыть]. И что с этим делать – непонятно, ведь исследования показывают: даже профессиональные дегустаторы редко могут с уверенностью определить более 3–4 компонентов в смеси[147]147
D. Laing and W. Francis, “The Capacity of Humans to Identify Odors in Mixtures”, Physiology and Behavior 46, no. 5 (November 1989): 809–14; and D. Laing et al., “The Limited Capacity of Humans to Identify the Components of Taste Mixtures and Taste-Odour Mixtures”, Perception 31, no. 5 (2002): 617–35.
[Закрыть].
На восприятие вкуса влияют и ожидания. В 1963 г. трое исследователей тайком добавили в белое вино немного красного пищевого красителя, что придало вину розоватый оттенок. После этого группу экспертов попросили оценить сладость этого вина по сравнению с неподкрашенным. Эксперты, сообразно своим ожиданиям, оценили подкрашенное розовое вино как более сладкое. Другая группа исследователей предъявляла два образца вина будущим виноделам. Это были совершенно одинаковые образцы белого вина, но в один была добавлена капля безвкусного красителя – виноградного антоциана, в результате чего вино стало выглядеть как красное. Ученики-виноделы также сообщили о различиях во вкусе вин в соответствии со своими ожиданиями[148]148
For the rosé study, see Rose M. Pangborn, Harold W. Berg, and Brenda Hansen, “The Influence of Color on Discrimination of Sweetness in Dry Table-Wine”, American Journal of Psychology 76, no. 3 (September 1963): 492–95. For the anthocyanin study, see G. Morrot, F. Brochet, and D. Dubourdieu, “The Color of Odors”, Brain and Language 79, no. 2 (November 2001): 309–20.
[Закрыть]. А в 2008 г. группа добровольцев, которых попросили оценить пять бутылок вина, оценила бутылку с этикеткой «90 долларов» выше, чем бутылку с этикеткой «10 долларов», хотя хитрые ученые налили в обе бутылки одно и то же вино. Более того, во время этого опыта с помощью функционального магнитно-резонансного томографа регистрировалась активность мозга испытуемых. Обнаружилось, что зона мозга, активация которой обычно соотносится с переживанием удовольствия, действительно активируется в большей степени, когда испытуемые пьют вино, которое считают более дорогим[149]149
Hilke Plassman, John O’Doherty, Baba Shia, and Antonio Rongel, “Marketing Actions Can Modulate Neural Representations of Experienced Pleasantness”, Proceedings of the National Academy of Sciences, January 14, 2008; http://www.pnas.org.
[Закрыть]. Но прежде чем осудить этих горе-ценителей, примите к сведению следующий факт: когда исследователи выяснили у 30 любителей колы, предпочитают ли они «Пепси-колу» или «Кока-колу», а потом попросили проверить свои предпочтения, продегустировав оба напитка, стоящие бок о бок, 21 человек из 30 сообщили, что проверка подтвердила их выбор, хотя коварные исследователи налили «Кока-колу» в бутылки от «Пепси-колы», и наоборот[150]150
M. E. Woolfolk, W. Castellan, and C. Brooks, “Pepsi versus Coke: Labels, Not Tastes, Prevail”, Psychological Reports 52 (1983): 185–86.
[Закрыть]. Когда мы оцениваем или измеряем, наш мозг полагается отнюдь не только на непосредственно воспринимаемое, но использует и другие источники информации – например, ожидания.
Дегустаторов вин часто сбивает с толку и оборотная сторона ошибки ожидания – недостаток контекста. Поднося к носу корень хрена, вы едва ли перепутаете его с зубчиком чеснока, а запах чеснока не спутаете с запахом, скажем, стелек из ваших ношеных кроссовок. Но если вам приходится иметь дело с ароматом прозрачных жидкостей, оттолкнуться не от чего. В отсутствие контекста высока вероятность того, что ароматы будут перепутаны. Именно это случилось, когда исследователи предъявили экспертам набор из шестнадцати случайно отобранных запахов: эксперты неверно определили в среднем каждый четвертый запах[151]151
M. Bende and S. Nordin, “Perceptual Learning in Olfaction: Professional Wine Tasters Versus Controls”, Physiology and Behavior 62, no. 5 (November 1997): 1065–70.
[Закрыть].
Имея все основания для скептицизма, ученые разработали методы прямой оценки различения вкусов экспертами. Один из таких методов – использование «треугольника вин». Это не собственно треугольник, скорее метафора: каждому эксперту предъявляется три сорта вина, два из которых идентичны. Задача состоит в том, чтобы выявить отличающийся от остальных сорт вина. В исследовании 1990 г. эксперты успешно справились с этой задачей только в 2/3 случаев, то есть на каждые три пробы приходилась одна, в которой эти гуру не могли отличить пино нуар, допустим, «с роскошным букетом земляники, сочной ежевики и малины», от пино «с выраженным ароматом сушеного чернослива, желтой черешни и бархатистой черной смородины»[152]152
Gregg E. A. Solomon, “Psychology of Novice and Expert Wine Talk”, American Journal of Psychology 103, no. 4 (Winter 1990): 495–517.
[Закрыть]. В том же исследовании группу экспертов попросили оценить ряд вин по 12 параметрам: таким, как содержание алкоголя, присутствие танинов, сладость и фруктовый запах. Эксперты существенно разошлись в своих оценках по 9 из 12 параметров. Наконец, когда их попросили подобрать вина, подходящие под описания, данные другими экспертами, испытуемые выполнили задачу правильно только в 70 % случаев.
Сами дегустаторы в курсе всех этих трудностей. «Во многих планах… [система оценивания] лишена смысла», – говорит редактор журнала «Уайн энд спирит мэгэзин»[153]153
Rivlin, “In Vino Veritas.”
[Закрыть]. А по мнению бывшего редактора «Уайн Энтузиаст», «чем глубже ты во все это погружаешься, тем больше понимаешь, насколько оно ошибочно и обманчиво»[154]154
Rivlin, “In Vino Veritas.”
[Закрыть]. Тем не менее система оценивания процветает. Почему? Сами дегустаторы говорят, что когда они пытаются определить качество вина, используя систему звездочек или простейшие словесные ярлыки наподобие «хорошее», «плохое», «безобразное», их мнение звучит неубедительно. Но стоит перейти к использованию цифр, как покупатели начинают относиться к оценкам словно к божественному откровению. Как бы ни были сомнительны количественные оценки, именно они дают покупателям уверенность, что среди многообразия марок, производителей и урожаев им, словно в стоге сена, удастся отыскать золотую иголку (или хотя бы серебряную, если бюджет не позволяет).
Если качество вина (или сочинения) в самом деле может быть подвергнуто измерению в числовом выражении, то перед теорией измерения встает два вопроса. Во-первых, как получить это число на основе ряда отличающихся друг от друга измерений? Во-вторых, имея в виду, что число измерений ограничено, как вычислить вероятность того, что оценка верна? Рассмотрим эти вопросы, поскольку независимо от того, объективен или субъективен источник данных, теория измерения ставит себе целью найти на них ответы.
Ключ к пониманию измерения – постижение природы разброса данных, обусловленного случайной ошибкой. Предположим, мы попросили пятнадцать дегустаторов оценить некоторое вино, или же предложили оценить его несколько раз в разные дни одному и тому же дегустатору или прибегли к обеим процедурам. Мы можем подвести итоги оценивания, используя усреднение полученных оценок. Однако важную информацию содержит не только среднее значение: если все пятнадцать дегустаторов выставляют оценку 90, это одно, а если они выставляют оценки 80, 81, 82, 87, 89, 89, 90, 90, 90, 91, 94, 97, 99 и 100 – это совсем другое. Среднее значение обоих наборов данных одно и то же, но они различаются разбросом данных относительно этого среднего. А поскольку распределение данных – важный источник информации, для его описания математики предложили количественную меру разброса. Эта мера называется выборочным стандартным отклонением. Кроме того, математики измеряют разброс посредством квадратичной меры, которую называют выборочной дисперсией.
Стандартное отклонение показывает, насколько данные по выборке близки к среднему – или, в практическом смысле, какова погрешность измерения. Если оно невысоко, все данные группируются вокруг среднего. Например, для случая, когда все дегустаторы поставили вину оценку 90, стандартное отклонение равно 0, указывая на то, что все измерения идентичны среднему значению. В случае же высокого стандартного отклонения данные разбросаны относительно среднего. Например, когда вино оценивается дегустаторами в диапазоне от 80 до 100, выборочное стандартное отклонение равно 6. Это означает, что на практике большинство оценок попадет в диапазон от –6 до +6 относительно среднего. В рассмотренном случае о вине можно с высокой степенью уверенности сказать, что его истинная оценка, скорее всего, относится к диапазону от 84 до 96.
Пытаясь понять значение своих измерений, ученые XVIII–XIX вв. сталкивались с теми же проблемами, что и скептически настроенные ценители хороших вин. Ибо если группа исследователей осуществляет ряд наблюдений и измерений, результаты почти всегда получаются разными. Один астроном мог столкнуться с неблагоприятными погодными условиями, другой – покачнуться из-за порыва ветра, третий, возможно, только что вернулся от Уильяма Джеймса, с которым вместе дегустировал мадеру. В 1838 г. математик и астроном Ф. В. Бессель выделил одиннадцать классов случайных ошибок, которые могут возникнуть в ходе любого наблюдения с использованием телескопа. Даже если один и тот же астроном осуществляет ряд повторных измерений, результаты могут различаться из-за таких факторов, как неустойчивая острота зрения и влияние температуры воздуха на аппаратуру. Поэтому астрономам пришлось разбираться, как на основе ряда несовпадающих измерений установить истинное положение небесного тела. Но из того, что ценители вин и ученые сталкиваются с одной и той же проблемой, совсем не обязательно следует, что для них годится одно и то же решение. Можно ли выделить универсальные характеристики случайной ошибки, или же ее природа зависит от контекста?
Одним из первых предположение о том, что для разных типов измерений характерны одни и те же особенности, выдвинул Даниил Бернулли, племянник Якоба Бернулли. В 1777 г. он уподобил случайную ошибку в астрономическом наблюдении отклонениям в траектории выпущенной из лука стрелы. В обоих случаях, рассуждал он, цель – истинное значение измеряемой переменной или же «яблочко» мишени – располагается где-то посреди, а наблюдаемые результаты группируются вокруг нее, причем большинство должны лежать в окрестностях цели, и лишь немногие выпадают за их пределы. Закон, который Бернулли предложил для описания этого распределения, оказался неверен, однако важно само понимание того, что распределение ошибок лучника может быть сходно с распределением ошибок в наблюдениях астрономов.
Идея о том, что распределение ошибок подчиняется некому универсальному закону, который называют законом случайного распределения ошибок, является основополагающей для теории измерения. И вот что примечательно: допущение состоит в том, что при условии удовлетворения определенных условий довольно общего характера установить истинное значение некоторой переменной на основе ряда измерений можно с использованием одного и того же математического аппарата. Если в дело вступает универсальный закон, то задача установления истинного положения небесного тела на основе ряда наблюдений астрономов приравнивается к задаче нахождения центра мишени на основе дырочек от стрел или определения «качества» вина на основе ряда экспертных оценок. Именно поэтому математическая статистика – последовательная и согласованная область, а не просто набор трюков: неважно, осуществляете ли вы ряд измерений для того, чтобы установить положение Юпитера в 4 часа утра на Рождество или средний вес булок с изюмом, выходящих с конвейера, распределение ошибок будет одним и тем же.
Однако отсюда не следует, что случайная ошибка – единственный вид ошибок, которые могут повлиять на измерение. Если половина дегустаторов предпочитает красное вино, а другая половина – белое, однако во всех остальных отношениях они сходятся в своих суждениях (и предельно последовательны в их вынесении), то оценка каждого конкретного вина не будет определяться законом случайного распределения ошибок: распределение получится резко двугорбым, причем причиной появления одного из пиков станут любители красного вина, а другого – любители белого. Но даже в тех случаях, когда применимость закона случайного распределения ошибок не столь очевидна (начиная от футбольного тотализатора[155]155
Hal Stern, “On the Probability of Winning a Football Game”, American Statistician 45, no. 3 (August 1991): 179–82.
[Закрыть] и заканчивая измерением коэффициента интеллекта), зачастую он все же оказывается применим. Много лет назад мне в руки попали несколько тысяч регистрационных карточек покупателей компьютерной программы, которую разработал для восьми– и девятилетних школьников мой приятель. Продажи шли не так хорошо, как ожидалось. Кто же покупал программу? После некоторых подсчетов я установил, что наибольшее число пользователей приходится на семилетних, указывая на нежелательное, но не то чтобы неожиданное расхождение. Но вот что самое удивительное: когда я построил гистограмму зависимости количества пользователей от возраста, взяв семь лет за среднее значение, я обнаружил, что построенный мною график принял крайне знакомую форму – форму закона случайного распределения ошибок.
Одно дело – подозревать, что лучники и астрономы, химики и маркетологи сталкиваются с одним и тем же законом распределения ошибок, и совсем другое – самому натолкнуться на частный случай этого закона. Подталкиваемые необходимостью анализировать данные астрономических наблюдений ученые, такие как Даниил Бернулли и Лаплас, постулировали в конце XVIII в. несколько вариантов закона, оказавшихся неверными. Однако выяснилось, что математическая функция, верно отражающая закон случайного распределения ошибок, – колоколообразная кривая – все это время была у них под носом. За много десятилетий до них она была открыта в Лондоне в контексте решения совсем иных задач.
Среди троих ученых, благодаря которым на колоколообразную кривую обратили внимание, реже всех воздается по заслугам именно ее первооткрывателю. Абрахам де Муавр совершил свое открытие в 1733 г., когда ему было за шестьдесят, однако до появления второго издания его книги «Об измерении случайности», вышедшего в свет пять лет спустя, об этом никто не знал. Де Муавр пришел к искомой форме кривой, когда пытался аппроксимировать числа, заполняющие треугольник Паскаля значительно дальше той строки, на которой оборвал его я, – сотнями и даже тысячами строк ниже. Когда Якоб Бернулли обосновывал свой вариант закона больших чисел, ему пришлось столкнуться с некоторыми свойствами чисел, появляющихся в этих строках. А числа действительно очень велики: например, одно из чисел в двухсотой строке треугольника Паскаля состоит из пятидесяти девяти цифр! Во времена Бернулли, да и вообще до тех пор, пока не появились компьютеры, эти числа было очень трудно высчитать. Именно поэтому, как я сказал, Бернулли обосновывал свой закон больших чисел, используя различные способы приближенного вычисления, что снижало практическую значимость результатов его работы. Де Муавр со своей кривой осуществил несравненно более точную аппроксимацию и потому значительно улучшил оценки Бернулли.
Как де Муавр осуществил свою аппроксимацию, становится понятно, если числа в ряду треугольника представить в виде высоты столбика на гистограмме – я поступил так с регистрационными карточками. Например, числа в третьей строке треугольника – 1, 2, 1. Тогда на гистограмме первый столбик будет высотой в одно деление, второй – вдвое выше, а третий – вновь высотой в одно деление. Рассмотрим теперь пять чисел в пятой строке: 1, 4, 6, 4, 1. На гистограмме будет пять столбиков, она вновь начнется с минимальной высоты, достигнет максимума в центре и продемонстрирует симметричное снижение. Если спуститься по треугольнику вниз, получатся гистограммы с огромным количеством столбиков, но поведение их будет тем же самым. Гистограммы для 10-й, 100-й и 1000-й строк треугольника Паскаля приведены на странице 139.
Если теперь провести кривые, соединяющие вершины столбиков на каждой из гистограмм, все они окажутся характерной формы, напоминающей колокол. А если несколько сгладить эти кривые, можно подобрать соответствующее им математическое выражение. Колоколообразная кривая – не просто визуализация чисел в треугольнике Паскаля: это инструмент, позволяющий получить точные и удобные в употреблении оценки значений чисел, появляющихся в расположенных ниже строках треугольника. В этом и состояло открытие де Муавра.
Сегодня колоколообразную кривую называют обычно нормальным распределением, а иногда – Гауссовой кривой (вскоре читатель узнает, откуда взялось это название). Нормальное распределение – не отдельная фиксированная кривая, но целое семейство кривых, определяемых двумя параметрами, задающими положение кривой и ее форму. Первый из них – расположение пика: в графиках на странице 174 это 5, 50 и 500 соответственно. Второй – степень разброса. Этот показатель, получивший свое современное наименование лишь в 1894 г., называется стандартным отклонением и представляет собой теоретический аналог понятия, о котором я уже упоминал – выборочного стандартного отклонения. Грубо говоря, это половина ширины кривой в той точке, где кривая достигает своей 60 %-ной высоты. В наше время значение нормального распределения выходит далеко за пределы аппроксимации чисел в треугольнике Паскаля. Это самая распространенная форма распределения любого рода данных.
При описании распределения данных колоколообразная кривая демонстрирует, что в том случае, когда вы делаете много замеров, большинство их результатов будут примыкать к среднему значению, что отображается в виде пика. Симметрично снижаясь по обе стороны от пика, кривая показывает, как убывает число результатов замеров ниже и выше среднего, поначалу довольно резко, а потом не столь круто. Если данные распределены нормально, около 68 % (т. е. приблизительно 2/3) результатов измерений попадают в пределы одного стандартного отклонения, около 95 % – в пределы двух стандартных отклонений и 99,7 % – в пределы трех стандартных отклонений.
Чтобы представить себе эту картину, взгляните на графики на странице 206. Квадратики соответствуют результатам угадывания 300 студентами исходов десятикратного подбрасывания монеты[156]156
The graph is from Index Funds Advisors, “Index Funds.com: Take the Risk Capacity Survey”, http://www.indexfunds3.com/step3page2.php, where it is credited to Walter Good and Roy Hermansen, Index Your Way to Investment Success (New York: New York Institute of Finance, 1997). The performance of 300 mutual fund managers was tabulated for ten years (1987–1996), based on the Morningstar Principia database.
[Закрыть]. По оси абсцисс отложено количество верных угадываний – от 0 до 10. По оси ординат – количество студентов, продемонстрировавших соответствующее количество верных угадываний. Кривая имеет колоколообразную форму с пиком на уровне 5 верных угадываний: столько раз верно угадали исход подбрасывания 75 студентов. Двух третей максимальной высоты (соответствующее количество студентов – 51) кривая достигает посередине между 3 и 4 верными угадываниями слева и между 6 и 7 верными угадываниями справа. Колоколообразная кривая с таким стандартным отклонением типична для стохастических процессов вроде угадывания исходов подбрасывания монеты.
Кружочками на том же графике отображен еще один набор данных – успешность работы 300 менеджеров паевых инвестиционных фондов. Для этого набора данных по оси абсцисс отложено не количество верных угадываний исходов подбрасывания монеты, а количество лет (из 10), когда показатели успешности работы менеджера были выше группового среднего. Обратите внимание на сходство! Мы еще вернемся к нему в главе 9.
Чтобы понять связь между нормальным распределением и случайной ошибкой, можно рассмотреть процесс проведения выборочного опроса. Вспомним опрос относительно популярности мэра Базеля, который я упоминал в главе 5. В этом городе часть жителей одобряет деятельность мэра, а часть осуждает. Для простоты примем, что тех и других по 50 %. Но, как мы видели, результаты опроса не обязательно будут полностью соответствовать этой пропорции 50/50. И в самом деле, если выборочно опросить N горожан, то вероятность, что любое произвольное их число поддержит мэра, пропорциональна числам в строке N треугольника Паскаля. А раз так, то, согласно работам де Муавра, если служба общественного мнения опросит большое число горожан, вероятность всех возможных результатов опроса можно будет описать с помощью кривой нормального распределения. Иными словами, около 95 % случаев одобрения попадет в пределы 2 стандартных отклонений от истинного рейтинга мэра, 50 %. Для описания этой погрешности службы общественного мнения используют понятие «допустимый предел погрешности». Сообщая средствам массовой информации, что предел погрешности опроса составляет +/– 5 %, они имеют в виду, что если повторить опрос много раз подряд, 19 из 20 раз (т. е. в 95 % случаев) результат его будет в пределах 5 % от истинного значения измеряемой переменной. (И хотя службы общественного мнения редко на это указывают, в 1 случае из 20 результат опроса будет мало соответствовать действительности.) На практике размеру выборки в 100 человек соответствует такой допустимый предел погрешности, который никуда не годится. А вот для выборки в 1000 человек предел погрешности обычно составляет около 3 %, что уже вполне пригодно для большинства целей.
Однако, проводя опрос любого рода, важно сознавать, что при любом повторении опроса результат хоть немного, но изменится. Например, если в действительности 40 % зарегистрированных избирателей дают положительную оценку деятельности президента, шесть независимых опросов скорее покажут что-то вроде 37 %, 39 %, 39 %, 40 %, 42 % и 42 %, нежели сойдутся на показателе в 40 %. (Эти шесть чисел – действительные результаты шести независимых опросов, призванных выявить количество граждан, которые положительно оценивали деятельность президента в первые две недели сентября 2006 года[157]157
Polling Report, “President Bush – Overall Job Rating”, http://pollingreport.com/BushJob.htm.
[Закрыть].) Вот почему на практике на изменчивость данных в рамках допустимого предела погрешности не следует обращать внимания. Но даже если «Нью-Йорк Таймс» никогда и не вынесет на первую страницу заголовок «Количество рабочих мест и уровень заработной платы к двум часам пополудни несколько выросли», в публикациях, посвященных политическим опросам, подобного рода заголовки – не редкость. Например, после Национального партийного съезда республиканцев в 2004 г. «Си-эн-эн» разродилась выпуском новостей, озаглавленным так: «Похоже, рейтинг Буша несколько вырос»[158]158
“Poll: Bush Apparently Gets Modest Bounce”, CNN, September 8, 2004, http://www.cnn.com/2004/ALLPOLITICS/09/06/presidential.poll/index.html.
[Закрыть]. Эксперты «Си-эн-эн» пояснили, что «В результате проведения съезда рейтинг Буша увеличился на 2 %… Если до съезда в его пользу склонялись 50 % потенциальных избирателей, то сразу после съезда – 52 %». Лишь позднее репортер оговорил, что предел погрешности для данного опроса составлял 3,5 %, а это означает, что экстренный выпуск новостей по сути не имел смысла. Похоже, слово «похоже» на самом деле означало «непохоже».
Как правило, при проведении опросов предел погрешности выше 5 % считается недопустимым, однако в повседневной жизни мы основываем свои суждения на значительно меньшем количестве наблюдений. Разве найдешь человека, который 100 лет играет в профессиональный баскетбол, вложил деньги в 100 многоквартирных жилых домов или основал 100 компаний, выпускающих шоколадное печенье? Так что, когда мы делаем выводы об успешности этих людей, мы берем за основу лишь незначительное число наблюдений. Следует ли футбольной команде раскошелиться на 50 млн долларов, чтобы заполучить игрока, чья игра была поистине чемпионской лишь в течение года? С какой вероятностью биржевой маклер, который в очередной раз просит у вас денег и говорит, что дело верное, вновь добьется успеха? Означает ли успех процветающего изобретателя такой игрушки, как морские обезьяны, что его новые изобретения – невидимые золотые рыбки и растворимые лягушки – скорее всего, станут пользоваться таким же спросом? (Кстати сказать, не стали[159]159
“Harold von Braunhut”, Telegraph, December 23, 2003; http://www.telegraph.co.uk/news/main.jhtml?xml=/news/2003/12/24/db2403.xml.
[Закрыть].) Сталкиваясь с успехом или с неудачей, мы имеем дело лишь с одним наблюдением, с одной из множества точек колоколообразной кривой, отображающей все наблюдавшиеся ранее возможности. И мы не знаем, что представляет собой это наблюдение – среднее или явный выброс, событие, в котором можно быть абсолютно уверенным, или редкий случай, который едва ли повторится. Так или иначе, мы должны иметь в виду, что точечное наблюдение – это не более чем точечное наблюдение, и прежде чем принимать его как факт, следует рассмотреть его в контексте соответствующего ему стандартного отклонения или разброса значений. Даже если некоторое вино получило оценку в 91 балл, эта оценка не имеет смысла, пока мы не узнаем, каков был бы разброс, если бы то же самое вино подверглось повторному оцениванию или если бы его стали оценивать другие люди. В качестве примера полезно вспомнить, как несколько лет назад «Путеводитель по хорошим австралийским винам» издательства «Penguin» и «Ежегодник австралийских вин», выпускаемый «On Wine», написали о рислинге «Митчелтон Блэквуд Парк» урожая 1999 г., причем «Путеводитель…» присвоил вину пять звездочек из пяти и назвал лучшим вином года по версии «Penguin», а «Ежегодник…» оценил ниже всех прочих вин, о которых писал в тот год, и счел худшим вином данной марки за последнее десятилетие[160]160
James J. Fogarty, “Why Is Expert Opinion on Wine Valueless?” (discussion paper 02.17, Department of Economics, University of Western Australia, Perth, 2001)
[Закрыть]. Нормальное распределение не только помогает понять подобные разногласия, но и применяется в великом множестве областей науки и торговли: например, когда фармацевтическая компания решает, считать ли результаты клинических испытаний значимыми, производитель – отражает ли случайная выборка реальный процент деталей с браком, а закупщик – принять ли к действию результаты опроса.
Тот факт, что нормальное распределение описывает распределение ошибки измерения, открыл десятилетия спустя после выхода работы де Муавра человек, имя которого носит колоколообразная кривая, – немецкий математик Карл Фридрих Гаусс. Эта мысль – во всяком случае, в отношении астрономических измерений, – пришла Гауссу в голову, когда он работал над проблемой траекторий движения планет. Однако же «доказательство» Гаусса было, по его собственному позднейшему признанию, ошибочным[161]161
Stigler, The History of Statistics, p. 143.
[Закрыть], а далеко идущие последствия этого открытия тоже не пришли ему на ум. Поэтому он, дабы не привлекать излишнего внимания, сунул обнаруженный закон в один из последних параграфов своей книги «Теория движения небесных тел, обращающихся вокруг Солнца по коническим сечениям». Там бы она и сгинула, эта еще одна из многочисленных отвергнутых наукой идей о том, как должен выглядеть закон распределения ошибок.
Однако нормальное распределение вернул из небытия Лаплас, наткнувшийся на работу Гаусса в 1810 г., вскоре после того, как подал в Академию наук статью с доказательством так называемой центральной предельной теоремы, гласящей, что сумма большого количества независимых случайных величин имеет распределение, близкое к нормальному. Например, предположим, что вы выпекаете 100 буханок хлеба, каждый раз основываясь на рецепте, по которому должны получаться буханки весом в 1000 граммов. Но иногда вы случайно добавляете то чуть меньше, то чуть больше муки или молока, а иногда чуть меньше или чуть больше жидкости испаряется за время нахождения буханки в печи. В конечном счете в силу каждой из множества возможных причин вес буханки может вырасти или уменьшиться на несколько граммов, и в этом случае центральная предельная теорема утверждает, что итоговый вес буханок будет варьировать в соответствии с законом нормального распределения. Читая работу Гаусса, Лаплас сразу же понял, что может использовать его открытие в целях совершенствования собственной работы, а его собственная работа, в свою очередь, намного убедительнее, чем это удалось Гауссу, доказывает: нормальное распределение является отражением закона распределения ошибок. Лаплас немедленно опубликовал краткое продолжение статьи, посвященной центральной предельной теореме. В наши дни эта теорема и закон больших чисел – две наиболее важных наработки в рамках теории случайности.
Правообладателям!
Это произведение, предположительно, находится в статусе 'public domain'. Если это не так и размещение материала нарушает чьи-либо права, то сообщите нам об этом.