Текст книги "Полный бред! Скептицизм в мире больших данных"
Автор книги: Джевин Уэст
Жанр: Прочая образовательная литература, Наука и Образование
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 6 (всего у книги 21 страниц) [доступный отрывок для чтения: 7 страниц]
«Иными словами, активно формируйте систему отложенного вознаграждения в мозге ваших малышей, обещая небольшие награды за выполненную работу и потом выдавая их. Если вы будете так делать, их мозг автоматически будет склоняться к тому, чтобы первым делом выполнять тяжелые задания. Это классическое научение в действии».
Но вот в чем беда. Все эти рекомендации не дают никаких гарантий, потому что у нас нет надежных доказательств того, что способность откладывать вознаграждение приводит к успеху в будущем. Когда исследователи попытались заново воспроизвести оригинальный зефирный тест на большей выборке детей с дополнительным контролем, эффект заметно уменьшился. Более того, был выявлен фактор, который, похоже, отвечает как за способность ребенка откладывать вознаграждение, так и за успехи в юности, и это социоэкономический статус родителей[55]55
Специалисты по статистике иногда используют термин «конфаундинг» («искажающий фактор») для ситуаций, когда существует общая причина, влияющая на оба измеряемых показателя. В настоящем примере мы могли бы сказать, что способность откладывать вознаграждение, как и успехи в школе, искажается фактором благосостояния родителей. Прим. авт.
[Закрыть]. Детям из богатых семей было легче дождаться своей награды. Почему? Возможно, потому, что у них было большее чувство стабильности в целом, они больше доверяли взрослым, вспоминали прежние ситуации, в которых ожидание приносило плоды, и ощущали сравнительное равнодушие: зефир мог быть для них не таким уж желанным лакомством. Родительское благосостояние также основной фактор, определяющий успех молодежи в учебе. Так что и способность откладывать вознаграждение, и успех в учебе – последствия богатства родителей. Ни одно явление не вызывает другое. В случаях, подобных этому, когда благосостояние родителей является общей причиной как терпения, так и успеха, мы рисуем диаграмму следующим образом.
В этой схеме причинной связи стрелка указывает на течение времени. Дети способны откладывать вознаграждение (или нет) в возрасте четырех лет, задолго до того, как они становятся успешными учениками (или нет) в юности. Причинность всегда последовательна. Если А происходит перед Б, мы знаем, что Б не вызывает А. Это полезная информация. В данном случае мы можем сразу отказаться от версии, что способность откладывать вознаграждение в возрасте четырех лет вызвана успехами в учебе в старших классах.
Если не проявить осторожность, хронологическая последовательность событий может сбивать с толку. Просто потому, что «А происходит перед Б» не означает, что «А вызывает Б», пусть они даже и связаны. Эта ошибка так распространена и так давно известна, что имеет название на латыни – post hoc ergo propter hoc. В переводе это означает примерно «после этого – значит по причине этого».
Человеку свойственно допускать такие ошибки. Мы отлично различаем закономерности, и эта способность помогает нам обобщать старый опыт для использования в новой обстановке. Мы должны разобраться в том, что летающие черные насекомые не жалят, а черно-желтые жалят. То наблюдение, которое мы сделаем сегодня, поможет нам предвосхищать события в будущем. Мы должны заметить, что каждый раз при сильном ливне на следующий день уровень воды в реке поднимается и ее надо переходить с осторожностью. Мы часто применяем простые правила, такие как «если две вещи связаны, то та, что происходит раньше, вызывает ту, что случается потом». Засухи и лесные пожары связаны, засухи случаются первыми и являются причиной лесных пожаров. Но эта способность находить связи может нас подводить. Если мигрирующие гуси появляются в начале сентября каждого года, а лосось – в конце года, то мы можем предположить, что гуси каким-то образом призывают рыбу в реки. Конечно, птицам наплевать на рыб. Это очередной пример ошибки post hoc ergo propter hoc.
ЛОЖНАЯ КОРРЕЛЯЦИЯ
До сих пор мы обсуждали случаи, где наблюдается значимая корреляция между двумя событиями или измерениями, но люди делают ложные выводы о причинности. Заказ кувшинов и употребление больших объемов пива действительно связаны между собой, ошибка только в предположении, что большие кувшины заставляют людей пить больше пива. Однако некоторые корреляции даже до этого уровня недотягивают. Они возникают по случайности, не способны ничего поведать нам о том, как устроен мир, и вряд ли снова проявятся, если проверить. Выпускник Гарвардского университета Тайлер Виген собрал восхитительную коллекцию примеров таких корреляций и создал сайт Spurious Correlations («Ложные взаимосвязи»), где вы можете познакомиться с этими ложными корреляциями самостоятельно. Например, знали ли вы, что возраст победительниц конкурса «Мисс Америка» тесно коррелирует с числом людей, погибших от воздействия пара, горячих испарений или иных горячих предметов?[56]56
Чтобы нарисовать плавную кривую без острых углов на каждой точке, Виген использует технику, которая называется «сплайн». Мы последовали его примеру при составлении следующих графиков. Прим. авт.
[Закрыть]
Эта корреляция не сообщает нам абсолютно ничего важного о том, как работает мир. Какая вообще причинная связь может существовать между этими двумя явлениями? Интуитивно мы понимаем, что это ложная корреляция. Это просто случайное совпадение двух линий. Поскольку это лишь случай, мы не рассчитываем, что тренд сохранится. Так и есть. Если мы посмотрим, что произошло в следующие годы, после того как Виген опубликовал свой график, то увидим, что корреляция исчезла.
Виген нашел примеры ложной корреляции, собрав обширные данные о том, как меняются разные вещи со временем. Затем он использовал компьютерную программу, чтобы сопоставить каждый тренд со всеми остальными. Это экстремальная форма того, что специалисты в области данных называют «слепым прочесыванием данных». Достаточно всего сотни наборов данных, чтобы сопоставить около десяти тысяч пар. Некоторые из этих пар покажут очень сходные тренды – и таким образом высокую корреляцию – просто по случайности. Например, изучите корреляцию между количеством смертей, вызванных антикоагулянтами, и количеством степеней по социологии, присвоенных в США.
Вы смотрите на два этих тренда и думаете: «Ого, каковы шансы, что они могли так точно совпасть? Один на сотню? Один на тысячу? Должно же это что-то означать». Ну, кое-что это означает. Например, что Виген просмотрел сотни или тысячи других пар, прежде чем нашел такую, которая по случайности настолько совпала. Это не значит, что между двумя трендами есть какая-то осмысленная связь. И разумеется, это не значит, что доктора социологии ходят вокруг и травят людей крысиным ядом.
Подборки Вигена очень смешные. Но его поиски глупых корреляций напоминают о серьезной проблеме, которая возникает в научном анализе. В частности, на ранних стадиях исследований ученым приходится выявлять много закономерностей в природе. Чем больше информации становится доступно и чем больше появляется известных переменных, тем больше поиск связей начинает напоминать юмористические изыскания Вигена.
Исследователи проводили множество опросов, во время которых участникам задавали дюжины вопросов о многих аспектах их жизни, ценностях, личных качествах и так далее. Копаясь в этих данных для проверки гипотез, следует быть осторожными, чтобы нечаянно не сделать то же самое, что Виген сделал специально: то есть не проделать настолько много разных сравнений, что рано или поздно вы найдете чисто случайные совпадения вместо реальных взаимосвязей.
Один из самых простых способов получить ложную корреляцию трендов, меняющихся со временем, – это изучать очень простые тренды. Существуют миллионы вещей, которые мы можем взять и измерить. Многие из них со временем увеличиваются. Число писем в электронном почтовом ящике Джевина, цены на акции компании Amazon, рост детей, стоимость новых машин, даже год по григорианскому календарю. Многие другие со временем уменьшаются: площадь арктических льдов, уровень цезия-137 в Чернобыле, число случаев раннего возникновения рака легких, стоимость хранения 1 гигабайта данных. Если мы сопоставим два любых растущих тренда, их величины будут положительно коррелировать. То же самое получится, если мы сопоставим два любых нисходящих тренда. (Если сравнить увеличивающие величины с уменьшающимися, то тоже получим корреляцию, но отрицательную.) Однако между большинством пар не будет вообще никакой причинной связи. Так, один пользователь сайта Reddit кинул камень в огород любителей нетрадиционной медицины, опубликовав представленный ниже график.
Очевидно, нет оснований подозревать какую-либо причинно-следственную связь между продажами органических продуктов и расстройствами аутистического спектра, но в этой шутке есть доля истины. Выводя причинную связь там, где ее нет, автор иллюстрирует ту же ошибку, которую совершает сообщество, виня в аутизме вакцинацию.
В конце 1980-х годов один химик использовал тот же фокус, чтобы опубликовать остроумный график в Nature, одном из ведущих научных журналов мира. Диаграмма под названием «Новые параметры полового воспитания» служит уроком для тех, кто черпает из корреляции слишком много идей.
Здесь сравниваются два нисходящих тренда: количество аистов в Западной Германии и количество новорожденных детей. Автор шутливо намекает, что тут явно есть причинная связь. Может быть, старые сказки не врут: возможно, именно аисты и приносят детей. Нет аистов – нет и малышей.
КУРЕНИЕ НЕ УБИВАЕТ?
В нашем обсуждении причинности мы говорили о вероятностях, а не о твердой уверенности. Мы говорим, что пьяное вождение вызывает автомобильные аварии не потому, что каждый пьяный водитель попадает в аварии, и не потому, что в каждой аварии участвует пьяный водитель, а потому, что пьяное вождение серьезно повышает риск аварии. В этом заключается центральное различие между вероятной причиной (шансы Б повышаются по причине А), достаточной причиной (если А случается, то Б всегда случается) и необходимой причиной (пока не случится А, и Б не случится).
Различием между необходимой и достаточной причиной злоупотребляют, в частности, те, кто заинтересован в отрицании причинной связи. Например, Майк Пенс[57]57
Майк Пенс (р. 1959) – американский государственный деятель, политик, 48-й вице-президент США с 2017 по 2021 год. Прим. ред.
[Закрыть] однажды заявил, выступая против государственного регулирования оборота табака:
«Давайте взглянем правде в лицо. Несмотря на истерику политиков и журналистов, курение не убивает. На самом деле двое из троих курильщиков не умирают от болезней, связанных с курением, и девять из десяти не заболевают раком легких».
Это просто чушь, и чушь более высокого разряда, чем обычно позволяет себе пресса. В одном предложении Пенс буквально говорит, что «курение не убивает», а в следующем он заявляет, что треть курильщиков умирают по причинам, связанным с курением[58]58
Утверждение Пенса значительно преуменьшает долю людей, погибших от заболеваний, связанных с курением. Около двух третей курильщиков умирают от заболеваний, связанных с курением, согласно недавнему широкомасштабному исследованию Эмили Бэнкс с коллегами. Прим. авт.
[Закрыть]. Курения недостаточно, чтобы гарантировать рак легких или болезнь, связанную с курением, но оно заметно увеличивает вероятность того, что кто-то умрет от первого или второго. Сходным образом можно было бы сказать, что курение не вызывает рак легких, потому что некоторые жертвы этой болезни – например, шахтеры – никогда не курили. Этот тезис смешивает понятия необходимой причины и вероятной причины.
ЕСЛИ НЕТ ДРУГОГО ВЫХОДА, МАНИПУЛИРУЙ
Учитывая все эти опасности и ловушки, как мы вообще можем быть уверены, что хоть что-то вызывает что-то? Ученые все время мучаются с этой проблемой и часто прибегают к манипулятивным экспериментам, чтобы отделить корреляцию от причинности. Вспомните о том, как с биологической точки зрения объясняется жар. Обычно мы думаем, что лихорадка – это что-то, что болезнь делает с нами, точно так же как простуда приводит к больному горлу, а от ветрянки появляются волдыри. И врачи могут попытаться остановить или предотвратить повышение температуры, используя жаропонижающие препараты. Но, кажется, жар – это не совсем то же самое, что больное горло или сыпь. Есть немало доказательств того, что умеренный жар – это один из способов борьбы организма с инфекциями. Например, люди, у которых подскакивает температура, чаще выживают при инфекциях кровотока. Но это корреляция, а не причинная связь.
Приводит ли высокая температура к улучшению состояния здоровья, как показано на диаграмме?
А может, пациенты, которые изначально чувствуют себя лучше (в целом здоровее, не истощены, инфекция у них менее серьезна), – это те, кто способен перенести высокую температуру? Поскольку они изначально здоровее, мы можем предположить, что их состояние будет лучше независимо от влияния повышенной температуры.
Как нам выбрать между этими вариантами? Как нам выяснить, реально ли повышение температуры приводит к улучшению состояния здоровья?
С помощью экспериментов. В случае с температурой «естественные эксперименты» происходят постоянно, так как больных и без всяких экспериментаторов лечат по-разному. В частности, при посещении клиники или личного врача некоторым пациентам предлагают жаропонижающие, а некоторым нет. В целом и по данным множества исследований выявлен тренд: пациенты, которым дают жаропонижающие (антипиретики), дольше восстанавливаются от вирусной инфекции.
Значит ли это, что повышенная температура полезна? Необязательно, ведь жаропонижающие не назначают людям случайным образом. Группа пациентов, которой их дают, может иметь черты, отличающие ее от группы пациентов, которая их не получает. Возможно, мы имеем дело с искажением выборки. В частности, вероятно, что люди в более плохом состоянии скорее получат жаропонижающие лекарства. В итоге всё будет выглядеть так, словно жаропонижающие лекарства приводят к ухудшению состояния. Но в действительности жаропонижающие получали люди, которые и так, скорее всего, болели бы более тяжело.
Чтобы обойти эту проблему, мы можем внести явный элемент случайности в лечение пациентов (рандомизировать). Тогда любые различия в состоянии пациентов будут связаны с эффектами лечения, а не с разницей в здоровье пациентов. Конечно, будет неэтично ставить эксперименты на людях, которых лечат от смертельно опасных заболеваний, но мы можем – с согласия пациентов – поставить эксперимент на больных менее серьезно. Используя этот подход, исследователи обнаружили, что лекарства, которые сбивают жар, как правило, замедляют скорость восстановления и повышают риск того, что пациент заразит других. Но мы всё еще не знаем точно, что именно температура – основная причина этих различий. Может, дело в самих лекарствах, а не в изменениях температуры, которые они вызывают. Что, если жаропонижающие снижают жар, а понижение жара ухудшает состояние? А что, если у жаропонижающих есть собственные побочные эффекты – вне зависимости от влияния на температуру тела?
Чтобы разобраться с этими вариантами, ученые обратились к экспериментам с лабораторными животными. Они физически охлаждали животных. Это приводило к тем же результатам для здоровья, что и жаропонижающие. Эксперимент показывает, что негативные последствия приема жаропонижающих возникают благодаря влиянию на температуру тела. Теперь, когда эта часть головоломки на месте, у нас есть крепкая цепочка доказательств, подтверждающая тезис, что повышенная температура – это полезное средство защиты от болезней. Манипулятивные эксперименты формируют самые надежные доказательства причинности благодаря возможности изолировать предполагаемую причину и оставить всё остальное неизменным. Проблема в том, что такие эксперименты не всегда доступны, так что нам приходится полагаться на другие виды доказательств. Всё это прекрасно, но главное, если вы ищете доказательства, не позволяйте себе увлечься прыжками от корреляции к причинности.
Глава 5. Числа и чушь
Наш мир буквально оцифрован. Все подсчитано, измерено, проанализировано и оценено. Интернет-компании отслеживают нас в Сети и используют алгоритмы, чтобы предсказать, что мы купим. Смартфоны считают наши шаги, замеряют продолжительность звонков и отслеживают перемещения в течение дня. «Умные устройства» контролируют то, как мы их используем, и знают о нашем режиме дня больше, чем мы можем себе представить. Имплантированные медицинские устройства пропускают через себя непрерывный поток информации о пациентах и в реальном времени отслеживают признаки опасности. Во время техобслуживания наши машины выгружают данные о своей производительности и нашей манере вождения. Множество датчиков и камер, установленных в городах, следят за всем, от транспортных потоков до качества воздуха, и даже способны устанавливать личности прохожих.
Вместо того чтобы собирать данные о действиях потребителей с помощью дорогостоящих исследований и опросов, компании позволяют людям прийти к ним самостоятельно, а потом фиксируют всё, что те делают. Facebook◆ знает, с кем мы знакомы. Google – что мы хотим выяснить. Uber – куда мы намереваемся поехать. Amazon – что мы желаем купить. Match – с кем мы планируем создать семейный союз. Tinder – от кого мы ждем приглашения к общению.
Данные могут помочь нам понять мир, опираясь на объективные факты, но они далеко не так объективны, как нам кажется. Тут вспоминается старый анекдот. Математик, инженер и бухгалтер устраиваются на работу. Их заводят в кабинет и устраивают экзамен по математике. Первая задача, для разогрева: сколько будет два плюс два? Математик закатывает глаза, пишет «четыре» и переходит к следующим заданиям. Инженер на секунду задумывается, затем пишет «приблизительно четыре». Бухгалтер тревожно оглядывается по сторонам, затем встает со стула, подходит к человеку, который проводит тестирование, и приглушенным голосом спрашивает: «Прежде чем я что-либо напишу, скажите, что вы хотите получить?»
Числа идеально подходят для изложения чуши. Они кажутся объективными, но ими легко манипулировать, чтобы рассказывать нужную историю. Слова определенно продуцируются человеческим разумом, а как же числа? Числа как будто даны нам самой природой. Мы знаем, что слова субъективны. Мы знаем, что их используют, чтобы изворачиваться и искажать правду. Слова отражают интуицию, чувства, страсть. Числа же словно существуют отдельно от человека, который говорит о них.
Вера людей в числа невероятно сильна. Скептики заявляют, что они «просто хотят увидеть данные», или требуют, чтобы им показали «исходные данные», или настаивают на том, что «показатели должны говорить сами за себя». Нас убеждают, что «данные никогда не врут». Но эта точка зрения может быть опасной. Даже если величины или числа верны, их всё равно можно использовать, чтобы морочить голову, что мы и докажем в этой главе. Чтобы числа были понятными, они должны находиться в уместном контексте. Их нужно демонстрировать так, чтобы нам было доступно честное сравнение.
Давайте для начала задумаемся, откуда вообще берутся эти числа. Некоторые из них мы получаем непосредственно, с помощью точного подсчета или измерения. В США 50 штатов. Существует 25 простых чисел меньше 100. В Эмпайр-стейт-билдинг 102 этажа. Легенда бейсбола Тони Гвин сделал 3141 хит из 9288 выходов на биту, его средняя результативность за время игры в Высшей лиге равна 0,388. В принципе, точный подсчет и должен быть довольно прямолинейным. Существует определенный ответ, и обычно известна определенная процедура подсчета или измерения, которой можно воспользоваться, чтобы его получить. Но этот процесс далеко не всегда прост. Вполне можно сделать ошибки в вычислениях, измерениях или в том, что именно мы считаем. Возьмите, например, планеты Солнечной системы. С тех пор как был открыт Нептун в 1846 году и до 1930 года, когда был обнаружен Плутон, мы считали, что в Солнечной системе восемь планет. После открытия Плутона мы сказали, что у нас девять планет. Затем в 2006 году невезучего «новичка» понизили до статуса карликовой планеты, и полноценных планет, вращающихся вокруг Солнца, снова стало восемь.
Однако куда чаще точный подсчет или исчерпывающие измерения невозможны. Мы не способны отдельно сосчитать каждую звезду в наблюдаемой Вселенной, чтобы прийти к текущему приблизительному результату в триллион триллионов.
Сходным образом мы полагаемся на приблизительные оценки, когда рассматриваем такие показатели, как, например, рост взрослого человека в определенной стране. Мужчины из Нидерландов считаются самыми высокими в мире – в среднем 183 сантиметра. Но чтобы получить эти данные, не измеряли всех жителей страны и не вычисляли среднее всех полученных величин. Вместо этого исследователи использовали случайную выборку местных мужчин, измерили тех, кто в нее попал, и экстраполировали выводы на все население.
Если бы кто-то измерил полдюжины мужчин и вычислил их средний рост, только по случайности результат мог бы получиться неверным. Предположим, среди них некоторые были необычайно высокими. Это называют ошибкой выборки. К счастью, обширная выборка, как правило, позволяет выровнять отклонения, так что такая ошибка минимально влияет на результат.
Проблемы могут возникнуть и с процедурой измерения. Допустим, исследователи попросили участников сообщить о своем росте, но мужчины склонны завышать цифры, причем мужчины маленького роста делают это чаще, чем высокие.
Другой источник ошибки – предвзятость самой выборки – еще опаснее. Предположим, вы решили определить рост людей, отправились на местную баскетбольную площадку и стали измерять игроков. Баскетболисты, как правило, выше среднего роста, так что ваша выборка будет нерепрезентативной для населения в целом и в итоге значение окажется слишком высоким. Большинство ошибок такого рода не настолько очевидны. Мы посвятим оставшуюся часть главы исследованию хитроумных подходов, из-за которых выборка перестает характеризовать популяцию.
В этих примерах мы рассматривали группы людей в некотором диапазоне значений – например, диапазоне высоты, – а затем сводили эту информацию в единое число, что называется сводной статистикой. Например, описывая высокого голландца, мы говорим о среднем росте. Сводная статистика может быть удобным способом обобщать информацию, но, если она некорректна, вы легко введете свою аудиторию в заблуждение. Политики используют этот трюк, когда предлагают ввести налоговый вычет, который сэкономит сотни тысяч долларов для 1 % самых богатых граждан, но никак не облегчит налоговое бремя всех остальных. Они берут средний налоговый вычет и заявляют, что их план налогообложения сэкономит семьям в среднем 4000 долларов в год. Может, и так, но средняя семья – если мы имеем в виду ту, что находится в середине диапазона распределения доходов, – ничего не сэкономит. Большинству из нас будет куда полезнее знать, каким окажется вычет для семьи с медианным доходом. В данном случае медиана – это «срединный» доход между половиной семей, зарабатывающих больше этого значения, и половиной семей, зарабатывающих меньше этого значения. Таким образом, медианная семья не получит никакого вычета вообще, потому что он полезен только для 1 % населения с наибольшими доходами.
Иногда мы не можем непосредственно измерить тот показатель, который нас интересует. Недавно Карл попался на радар дорожной службы на прямом и ровном участке шоссе в пустыне штата Юта, где по необъяснимой причине было установлено ограничение скорости в пятьдесят миль в час. Он съехал на обочину, поглядывая на знакомые отблески красных и синих огней в зеркале заднего вида. «Вы знаете, как быстро вы ехали?» – спросил патрульный. «Думаю, что нет, офицер», – ответил Карл. «Восемьдесят три мили в час».
Восемьдесят три – серьезное число, потенциально грозящее большими неприятностями. Но откуда оно взялось? Некоторые транспортные камеры вычисляют скорость, измеряя расстояние, которое вы проехали за определенное время, но дорожная служба штата поступает иначе. Патрульный измерял нечто другое – доплеровский сдвиг в радиоволнах, излучаемых его портативным радаром, когда они отразились от мчащейся машины Карла. Программное обеспечение, встроенное в радар, использует математическую модель, основанную на волновой механике, чтобы с помощью полученных измерений вычислить скорость машины. Поскольку патрульный не измеряет непосредственно скорость Карла, радар нужно регулярно калибровать. Стандартный способ избавиться от штрафа за превышение скорости – потребовать от офицера продемонстрировать записи о своевременной калибровке. Правда, Карлу это не понадобилось. Он знал, что превысил скорость, и был рад, что за свою поспешность отделался лишь штрафом, хотя и крупным.
Радары полагаются на весьма надежные физические принципы, но модели, используемые для вычисления других показателей, могут быть более сложными и включать больше предположений. Международная китобойная комиссия публикует сведения о численности популяций некоторых видов китов. Когда она сообщает, что в водах Южного полушария водится 2300 синих китов, она приходит к этому числу не потому, что отыскали и сосчитали каждое животное. И они не прочесали от и до какой-то участок океана. Киты не стоят на месте, и большую часть времени их не видно с поверхности воды. Поэтому ученым необходимы косвенные способы определять численность популяции. Например, они подсчитывают встречи с уникальными особями, которых можно узнать по отметинам на хвостовых плавниках и хвосте. Так что их определение численности китов настолько же неточно, насколько неточна эта методика.
В расчеты и факты, которые кажутся совершенно очевидными, ошибки закрадываются по разным причинам. Можно запутаться в числах. Можно использовать слишком маленькую выборку, которая некорректно отражает особенности всей группы. Некорректными могут оказаться методики, с помощью которых мы выводим числа из иной информации. И наконец, числа могут просто быть полной чушью, выдуманной с нуля в попытке придать убедительности жалким аргументам. Мы должны помнить об этом, когда нам что-то доказывают с помощью численных показателей. Говорят, что цифры никогда не лгут, но следует помнить, что они часто вводят в заблуждение.
«ВЫДЕРЖАННЫЕ» ЧИСЛА
Хотя невыдержанный виски стал в последнее время трендом[59]59
Рискуем показаться циничными, но предполагаем, что всё это скорее связано не с ароматом или другими качествами невыдержанного виски, а с расцветом новых некрупных производителей, которые не хотят ждать доходов три года или больше. И если мы правы, то большая часть рекламы восхитительных новых сортов несостаренного виски, как вы понимаете, – самая что ни на есть чушь. Прим. авт.
[Закрыть], такой напиток часто бывает жестким и в нем полно нежелательных побочных продуктов процесса дистилляции. Несколько лет, проведенных в недавно обожженной дубовой бочке (для бурбона), или еще больший срок, проведенный в старой бочке (для скотча), творят чудеса. Ароматы дерева проникают в напиток, а часть вредных веществ из алкоголя вытягивается через древесину.
Алхимия не обходится даром. По мере того как напиток стареет в бочке, некоторое количество жидкости вытекает и испаряется. Бочка, которая изначально была полной, будет содержать лишь часть изначального объема, когда выдержка завершится. То, что утрачивается из-за испарения, называют «долей ангелов». Как бы романтично это ни звучало, ангелы забирают немало произведенного бурбона и скотча.
Как лучше описать эти затраты? Мы можем начать с общей суммы убытков: в Шотландии каждый год примерно 440 тысяч баррелей виски пропадают из-за испарения. Большинство людей не знают, насколько велик баррель виски (около 250 литров), так что давайте лучше скажем, что в Шотландии около 110 миллионов литров каждый год отправляется к ангелам. Обычно мы имеем дело с виски в бутылках, а не литрах, так что, возможно, стоит говорить об утрате 150 миллионов бутылок в год.
Сложно оценить общий объем, поскольку мы не знаем, сколько всего производится скотча. Мы можем проанализировать эти числа, описав, сколько жидкости теряет одна винокурня в процессе старения бочки. Работая на полную мощность, большой завод Macallan в Спейсайде теряет около 220 тысяч LPA – литров чистого спирта – в год. (Обратите внимание еще на один способ измерения: мощность такого предприятия часто определяется количеством произведенного спирта, а не всего объема продукта, включая воду.) Можно сравнить Macallan с маленьким производителем Ardbeg c острова Айлей, который теряет около 26 тысяч LPA в год.
Поскольку винокурни очень различаются по своему размеру, наверное, нам нужно сказать о потерях на баррель или, еще лучше, о потерях относительно начального объема. В процессе старения легендарного двадцатитрехлетнего бурбона Pappy Van Winkle испаряется 58 % изначального объема. Но вместо того чтобы описывать потери как долю изначального объема, я могу описать их как долю от окончательного объема. При изготовлении этого бурбона пропадает 1,38 литра на каждый бутилированный литр, так что можем сказать, что потери составляют 138 % окончательного объема. Это ровно то же количество, что и 58 % изначального объема, о котором мы говорили выше, но выбранный способ демонстрации данных создает совсем другое впечатление о потерях продукта.
Конечно, разные сорта виски выдерживают различное время. Возможно, вместо того чтобы описывать общую сумму убытков, будет лучше сказать, сколько виски пропадает ежегодно. Шотландский теряет около 2 % объема каждый год старения, или примерно 0,005 % каждый день. Бурбон, как правило, созревает при более высокой температуре, чем скотч, и потому испаряется сильнее: некоторые сорта могут терять до 10 % каждый год. Более того, этот уровень потерь не постоянный. Уже упоминавшийся Pappy Van Winkle утрачивает около 10 % объема в первый год в бочке, но уровень испарения снижается приблизительно до 3 % каждый год в оставшийся срок выдержки.
Однако нам нужно принять и другие решения. Например, спирт и вода испаряются с разной скоростью, так будем ли мы говорить об изменении объема воды, спирта или всей жидкости? Остается вопрос единиц измерения: метрические или британские? Литры или миллилитры? Галлоны или унции?
Честно говоря, числам мало быть точными. Их нужно поместить в подходящий контекст, чтобы слушатель или читатель мог правильно их интерпретировать. Одна из вещей, о которых люди часто забывают, – то, что представление чисел в чистом виде само по себе не означает, что они свободны от какого-либо контекста. Выбор, который вы делаете, решая, как преподнести определенную величину, и создает для нее контекст.
Что означает говорить о числах честно? Это значит демонстрировать их таким образом, чтобы можно было проводить значимые сравнения.
Пока один из нас (Карл) пишет эту главу, запас солодовых шариков в коробке Hershey’s Whoppers на его столе постепенно уменьшается. Но он не переживает, ведь яркая надпись на коробке гласит: «На 25 % меньше жиров, чем в среднем среди ведущих кондитерских брендов». По сноске мы переходим к надписи мелким шрифтом, которая уточняет: 5 граммов жиров на 30 граммов в одной порции по сравнению с 7 граммами жиров в среднем среди ведущих кондитерских брендов. Вот пример того, как бессмысленны числа без контекста. О каких брендах идет речь? Мы точно имеем дело с сопоставимыми продуктами или солодовые шарики сравниваются с цельными шоколадными батончиками? А что насчет сахара? Рафинированный сахар, возможно, куда опаснее для здоровья, чем жиры. Интересно, в Whoppers больше или меньше сахара? Есть в них другие вредные вещества, из-за которых стоило бы волноваться? И так далее и тому подобное. Информация о 25 % в составе продукта кажется ценной, но на самом деле это просто бессмысленное число.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?