Текст книги "Путеводитель по лжи"
Автор книги: Дэниел Левитин
Жанр: Личностный рост, Книги по психологии
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 16 страниц) [доступный отрывок для чтения: 5 страниц]
Но давайте посмотрим на среднее число братьев и сестер у одного ребенка. Мы часто допускаем ошибку, думая, что если в среднем в семье по три ребенка, то у каждого из них должно быть двое братьев или сестер. Но в семьях с одним ребенком на каждого из шести детей приходится ноль братьев и сестер. В семьях с двумя детьми на каждого из 18 детей приходится по одному брату или сестре. В семьях с шестью детьми на каждого из 66 детей приходится пять братьев и сестер. У 90 детей, выходит, 348 братьев или сестер. Следовательно, хотя средний ребенок воспитывается в семье с тремя детьми, на 90 детей приходится 348 братьев и сестер, или в среднем приблизительно четыре брата или сестры на ребенка.
Среднее количество детей на семью: 3,0
Среднее количество братьев и сестер на ребенка: 3,9[27]27
Среднее количество братьев и сестер на ребенка… – контурограмма детей с сайта Etsy, https://www.etsy.com/listing/221530596/stick-figure-family-car-van-bike-funny; маленький и большой дома нарисованы автором, средний дом взят из источника: http://www.clipartbest.com/clipart-9TRgq8pac.
[Закрыть]
Четыре семьи, в которых нет детей
Шесть семей с одним ребенком – шесть детей, у которых ноль братьев и сестер
Девять семей, в которых два ребенка, – 18 детей, у которых один брат или сестра
11 семей с шестью детьми – 66 детей, у которых пять братьев и сестер
А теперь давайте рассмотрим пример с колледжами. В Соединенных Штатах множество крупных колледжей (например, колледж в штате Огайо или в штате Аризона), где учится более 50 тысяч студентов. Есть также и не такие большие колледжи, где учится менее 3 тысяч студентов (например, Кеньон-колледж или Уильямс-колледж). Если мы включим в наши подсчеты еще и школы, то получим, что в колледже среднего размера учится 10 тысяч студентов. Но если подсчитать количество студентов, то получится, что средний студент ходит в колледж, где учится более 30 тысяч студентов. Это происходит потому, что при подсчете студентов мы получим гораздо больше данных из крупных школ. Схожим образом можно сделать вывод, что средний человек не живет в среднем городе, а средний гольфист не делает среднее число ударов для прохождения площадки с 18 лунками.
Во всех этих примерах меняется изучаемая группа, а потому меняется знаменатель при вычислении среднего арифметического. Рассмотрим еще один пример асимметричного распределения вроде того, с которым мы встретились, обсуждая детскую смертность: средний инвестор не получает средний доход[28]28
…средний инвестор не получает средний доход. – Притворство, см. Tabarrok, A., (2014, July 11). Средний доход от фондового рынка не является средним. http://marginalrevolution.com/marginalrevolution/2014/07/average-stock-market-returns-arent-average.html. Дата просмотра – 14 октября 2014 г.
[Закрыть].
В одном исследовании средний доход от инвестиции 100 долларов на срок 30 лет составил 760 долларов, или 7 % в год. Но 9 % инвесторов потеряли деньги, а огромному числу инвесторов, 69 %, не удалось достигнуть показателя среднего дохода. Так случилось потому, что среднее арифметическое было смещено из-за нескольких человек, заработавших больше среднего. На графике, предложенном ниже, среднее арифметическое смещено вправо благодаря тем счастливчикам, которым удалось заработать состояние.
Доходность инвестиции в 100 долларов через 30 лет. Обратите внимание: большинство людей получили доход меньше среднего арифметического, а немногие счастливчики – в пять раз больше среднего.
Махинации с осями координат
Человеческий мозг не развит настолько, чтобы обрабатывать большие объемы информации в виде текста, зато наши глаза автоматически ищут шаблоны и схемы в данных, представленных визуально. Самый точный, хотя и не самый простой для трактовки способ представить числовую информацию – составить таблицу, включив в нее все имеющиеся данные. Но для большинства людей сложно – если не сказать невозможно – обнаружить в этом массиве информации какие-то закономерности или тенденции, поэтому мы полагаемся на схемы и графики. Последние бывают двух видов: они либо показывают каждую точку данных (как в графике рассеяния), либо каким-то образом преобразуют данные, обобщают их, фокусируясь при этом, например, только на средних или медианах.
Есть много способов использовать графики для манипуляции и искажения данных. Но человек, которому свойственна осторожность, постарается не попасть впросак.
НЕОБОЗНАЧЕННЫЕ ОСИ КООРДИНАТ
Основной способ манипуляции с помощью статистических графиков – не обозначать оси координат. Если оси никак не названы, вы можете выдумать что угодно. Вот пример, взятый с плаката, который один студент-исследователь показывал на конференции[29]29
…пример, взятый с плаката, который один студент-исследователь показывал на конференции. – Tully, L. M., Lincoln, S. H., Wright, T., & Hooker, C. I. (2013). Нервные механизмы, поддерживающие осуществление когнитивного контроля за информацией в случае шизофрении. Плакат был представлен публике на 25-й ежегодной встрече Общества исследований в области психопатологий. https://www.researchgate.net/publication/266159520_Neural_mechanisms_supporting_the_cognitive_control_of_emotional_information_in_schizophrenia. Впервые я обнаружил этот пример на www.betterposters.blogspot.com.
[Закрыть]. Выглядел этот график таким образом (я его просто перерисовал):
Что все это значит? Из текста, приведенного на самом постере (а вовсе не на этом графике), нам известно, что специалисты исследуют активацию головного мозга пациентов, страдающих шизофренией (Ш). А что же такое КЗЗ? Нам не говорят, но из контекста – КЗЗ постоянно сравнивают с Ш – мы можем предположить, что это означает «контроль за здоровьем». Кажется, между КЗЗ и Ш должна быть разница, но… эм-м-м… на оси Y отмечены числа, и… единицы измерения могут быть какими угодно! Что мы видим? Результаты теста, уровни активации мозга, количество активированных зон мозга? Количество стаканчиков пудинга Jell-O, которые съели испытуемые, или количество фильмов с Джонни Деппом, которые они посмотрели за последние шесть недель? (Справедливости ради, исследователь позже опубликовал свои заключения в экспертном журнале и исправил все недочеты, на которые ему указали.)
В следующем примере график отображает брутто-продажи одного издательства, за исключением данных с платформы Kickstarter[30]30
…брутто-продажи одного издательства… – http://pelgranepress.com/index.php/tag/biz/.
[Закрыть].
Как и в предыдущем примере (хотя в данном случае мы говорим об оси X), отмечены числа, но нам не сообщают, что они обозначают. Хотя в данном случае это и так очевидно: мы предполагаем, что 2010, 2011 и т. д. относятся к календарному или финансовому[31]31
В США финансовый год – период, на который устанавливается бюджет, – длится с 1 октября по 30 сентября. Прим. науч. ред.
[Закрыть] году, а тот факт, что линия между годами не гладкая, говорит о том, что данные отслеживаются ежемесячно (но, не имея нормальных подписей, мы это можем только предполагать). Оси Y нет совсем, поэтому мы не знаем, что конкретно тут замеряется (это проданное количество экземпляров или доллары?), а также не знаем, что означает каждая из горизонтальных линий. График может отражать рост продаж как с пяти центов до пяти долларов за год, так и с 50 миллионов до 500 миллионов долларов за год. Но не нужно беспокоиться – график сопровождало очень полезное примечание: «Это был еще один великолепный год». Думаю, нам просто нужно поверить им на слово.
Усеченная вертикальная ось
Продуманный график четко показывает наиболее значительные крайние точки всего множества. Это особенно важно, если вы документируете текущие или проектируемые количественные изменения и хотите, чтобы читатели сделали правильные выводы. Если вы отражаете в графике уровень преступности, смертности, рождаемости, дохода – или любое иное количественное множество, которое может принимать нулевое значение, – тогда ноль должен быть минимальной точкой отсчета. Но если ваша цель – посеять панику или ужас, начните свой график поближе к нижней границе значений, это подчеркнет разницу, которую вы пытаетесь выделить, потому что наш глаз привлекает разница, показанная на графике, а настоящий ее размер остается незамеченным.
В 2012 году Fox News показали приведенный ниже график, чтобы показать, что могло бы случиться, если бы снижение налогов, задуманное Бушем, не состоялось[32]32
…Fox News показали приведенный ниже график… – Я его перерисовал, чтобы все было понятно. Оригинал тут: http://cloudfront.mediamatters.org/static/images/item/fbn-cavuto-20120731-bushexpire.jpg.
[Закрыть].
Этот график создает визуальное впечатление, что размер налогов возрос бы, и намного: столбик справа в шесть раз выше столбика слева. Но кто захочет платить в шесть раз больше? Если на график посмотрит человек, который панически боится цифр (или просто взглянет на него мельком), он может и не рассмотреть оси и не заметить, что речь идет о разнице между налоговой ставкой в 35 % и 39,6 %. А это значит, что если налоги не снижать, то они вырастут всего на 13 %, а не на 600 %, как показано на картинке (увеличение процентных пунктов на 4,6 составляет 13 % от 35 %).
Если бы ось Y начиналась с нуля, мы бы обязательно заметили эти 13 %:
РАЗРЫВ ВЕРТИКАЛЬНОЙ И ГОРИЗОНТАЛЬНОЙ ОСЕЙ[33]33
Разрыв вертикальной и горизонтальной осей. – Spirer, Spirer, & Jaffe, op. cit., pp. 82–84.
[Закрыть]
Представьте себе город, в котором за последние десять лет уровень преступности неуклонно растет на 5 % в год.
Вроде бы ничего необычного. А теперь представьте, что вы занимаетесь продажами домашних сигнализаций и хотите немного напугать потенциальных клиентов, чтобы продать им свой товар. Используя все те же данные, просто прервите график по оси X. Это исказит действительность и волшебным образом обманет покупателей:
При взгляде на этот график создается впечатление, что уровень преступности сильно увеличился. Но вам-то лучше знать. Разрыв оси X вмещает цифры за пять лет в такой же промежуток, на который раньше приходилось два года. Неудивительно, что мы видим существенное увеличение. Это большой недочет в построении графика, но большинство читателей не утруждают себя разглядыванием осей, для них сойдет и так.
И вам совсем не нужно ограничивать свою креативность и довольствоваться разрывом оси X – вы можете добиться того же эффекта, разорвав и ось Y тоже, а потом скрыть содеянное, не прерывая линии. Вот посмотрите, как мы сделаем разрыв оси Y:
Конечно, это нечестно. Большинство читателей смотрят только на кривую и не замечают, что по вертикальной оси сначала отметки сделаны с интервалом в 40 сообщений о преступлении, а после числа 200 между соседними помещается только по восемь сообщений. Нам все еще весело?
По-хорошему, мы должны взять первый график с нормальными осями. Желая критически оценить данные, вы, возможно, захотите спросить, какие факторы повлияли на отбор и изображение данных.
Одно из объяснений может быть таким: рост преступности наблюдается в каком-то конкретном районе, известном своей неспокойной обстановкой, – а по всему городу уровень преступности уменьшается. Возможно, полиция и местная общественность просто решили, что в этом конкретном районе очень сложно навести порядок, и потому прекратили обеспечивать там соблюдение законов. Город же в целом достаточно безопасное место – может, даже безопаснее, чем когда бы то ни было, а преступность растет из-за одного злачного района.
Другой вариант: сводя воедино самые разные жалобы на преступников к одному показателю, мы упускаем одно серьезное соображение. Возможно, количество серьезных преступлений снизилось практически до нуля и, располагая большим количеством времени, полиция с особым рвением принялась выписывать штрафы за переход улицы в неположенном месте.
Может, желая понять, что же такое на самом деле статистика, будет логично спросить: «А как изменилось в этот промежуток времени население в этом городе?» Если оно увеличивалось больше, чем на 5 % за год, уровень преступности, измеряемый числом преступлений на одного жителя, на самом деле должен был снизиться, из расчета коэффициента преступности на человека. Мы можем проиллюстрировать свою мысль, отметив количество преступлений, приходящихся на 10 тысяч жителей этого города:
КАК ВЫБРАТЬ ПРАВИЛЬНЫЙ МАСШТАБ И ОСЬ[34]34
Как выбрать правильный масштаб и ось. – Примеры из Spirer, Spirer, & Jaffe, op. cit., p. 78.
[Закрыть]
Вас нанял на работу местный риелтор, который хочет, чтобы вы составили график изменений цены на дома в вашем районе за последние десять лет. Цены устойчиво растут на 15 % в год.
Если вы хотите встревожить людей по-настоящему, почему бы тогда не изменить ось X, чтобы включить годы, по которым у вас нет данных? Добавив дополнительные показатели на оси X, как показано на рисунке, вы увеличите наклон кривой, изменив масштаб по оси X следующим образом:
А теперь обратите внимание, как легко такой график обманывает ваш глаз (на самом деле, конечно, мозг). И вот вы уже делаете два неверных вывода: первый – что когда-то, около 1990 года, цена на дом, должно быть, была очень низкой, а второй – что к 2030 году она будет такой высокой, что лишь немногие смогут позволить себе покупку. А значит, лучше бы купить дом уже сейчас!
Оба графика искажают реальную ситуацию: кажется, что темп роста увеличивается, в то время как он (темп) остается постоянным. На первом графике рост в 15 % кажется в два раза больше на оси Y в 2014 году, нежели в 2006-м. Многое меняется с постоянной скоростью: зарплаты, цены, уровень инфляции, численность популяции, число заболевших[35]35
Многое меняется с постоянной скоростью… – Spirer, Spirer, & Jaffe, op. cit., p. 78.
[Закрыть]. Если же вы наблюдаете постоянный рост (или снижение) чего-либо, наиболее точно данные отобразить можно на логарифмической шкале. Она устроена так, что постоянное изменение на одно и то же число процентов изображается равными промежутками по оси Y. А постоянная годовая скорость изменений потом выглядит как прямая линия, посмотрите:
ДВОЙНАЯ ОСЬ Y, ВНУШАЮЩАЯ СТРАХ
Тот, кто строит график, может легко скрыть любую ложь, предвидя, что большинство тех, кто его увидит, не будут всматриваться очень уж пристально. Благодаря этому можно легко заставить огромное количество людей поверить в самые невероятные вещи. Возьмем, например, нижеприведенный график, на котором отражена ожидаемая продолжительность жизни курильщиков и тех, кто не курит, в возрасте 25 лет[36]36
…ожидаемая продолжительность жизни курильщиков и тех, кто не курит, в возрасте 25 лет. – Эти данные были взяты из Jha, P., et al. (2013). Вред курения в XXI веке и польза прекращения, данные по США. New England Journal of Medicine, 368(4), 341–350, рисунок 2A для женщин. Показатели вероятности выживания были взяты из Исследования здоровья нации и пересчитаны для уровня смертности в США на 2004 год с учетом самых разных причин смерти в этом возрасте, с поправкой на разницу в возрасте, уровень образования, потребление алкоголя и ожирение (индекс массы тела). Выражаю благодарность Прабхат Джа за ее письма, в которых она помогала мне интерпретировать данные. В основе этой формы презентации лежит презентация Wainer, H. (1997). Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot. New York: Copernicus/Springer-Verlag.
[Закрыть].
График проясняет две вещи: опасность, которой подвергается курильщик, увеличивается со временем, и потому есть большая вероятность, что он умрет раньше того, кто не курит.
Разница невелика для возраста 40 лет, но риск не дожить до 80 лет для курильщика увеличивается более чем вдвое – с менее чем 30 % до более 60 %. Это честный и точный способ представить данные графически. Но представьте, что вы 14-летний курильщик, который хочет уговорить родителей разрешить ему курить. В таком случае этот график вам не поможет. Придется покопаться в своем мешке с реквизитом фокусника и выудить оттуда двойную ось Y. Справа появится еще одна ось, числа на ней совсем не такие, как слева, и относятся лишь к тем, кто не курит. Как только вы это сделаете, график будет выглядеть вот так:
Теперь все выглядит так, словно вероятность умереть от курения у вас такая же, как и по любой другой причине. Не курение будет источником ваших бед – а ваш возраст! Самая большая сложность с такими графиками, в которых используются двойные оси Y, заключается в том, что вы всегда можете разметить вторую ось любым удобным для себя способом.
В журнале Forbes, весьма авторитетном издании, внушающем доверие, приводится очень похожий график, отражающий связь расходов на учащихся средней школы и их баллов по тесту SAT[37]37
…связь расходов на учащихся средней школы и их баллов по тесту SAT… – Этот пример взят из: H. Wainer, Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot. Нью-Йорк: Copernicus/Springer-Verlag, p. 93. Оригинал был опубликован в Forbes (May 14, 1990). Конечно, есть и другие переменные. Увеличение расходов было подсчитано в текущей валюте или с учетом инфляции? Для чего был выбран временной интервал 1980–1988 и был ли бы он другим при других обстоятельствах?
[Закрыть][38]38
SAT Reasoning Test (Scholastic Aptitude Test и Scholastic Assessment Test, дословно «Академический оценочный тест»).
[Закрыть]. Это очень распространенный в США стандартизированный тест для приема в высшие учебные заведения.
На графике все выглядит так, словно увеличение расходов на ученика (черная кривая) никоим образом не влияет на увеличение баллов по SAT (серая кривая). Некоторые оппозиционно настроенные политиканы могут утверждать, что это деньги налогоплательщиков, выброшенные на ветер. Теперь вы понимаете, что выбор разметки для второй оси Y (по правой стороне) ничем не обоснован. Если бы вы были школьным администратором, то, возможно, просто взяли бы те же самые данные, изменили разметку на оси справа – и готово! Налицо увеличение расходов, которое обеспечивает более качественное образование (как следует из увеличения баллов за тест!).
Этот график, однако, отображает принципиально другую историю. Какой из них не лжет? Чтобы это понять, нужно измерить, насколько меняется одна переменная при изменении другой. Для этого есть показатель, известный как корреляция. Корреляции варьируются от – 1 до 1. Корреляция 0 означает[39]39
Это не всегда так. Чтобы из равенства корреляции нулю сделать вывод об отсутствии связи между величинами, нужно проверить выполнение дополнительных условий. Достаточно, например, чтобы величины были распределены нормально. Прим. науч. ред.
[Закрыть], что одна переменная совсем не связана с другой. Корреляция – 1 означает, что, когда одна переменная идет вверх, другая абсолютно синхронно идет вниз. Корреляция 1 означает, что, когда одна переменная идет вверх, вторая делает то же самое, тоже абсолютно синхронно. Кажется, первый график иллюстрирует корреляцию 0, второй – ту, что очень близка к 1. Фактическая корреляция для этого набора данных равна 0,91 – и это очень сильная корреляция. Повышенные расходы на студентов, по крайней мере в этом наборе данных, ассоциируются с лучшими показателями при выполнении тестов SAT.
С помощью корреляции можно[40]40
Нет, нельзя оценить. Высокая корреляция не говорит о причинно-следственной связи, и результат может объясняться совсем другими факторами, не учтенными в исследовании. Например, наблюдается высокая корреляция между размером обуви и скоростью чтения школьников. Чем больше размер обуви, тем быстрее школьник читает, и наоборот. Корреляция есть, а причинно-следственной связи, конечно же, нет. Здесь играет роль совсем другой фактор – возраст. Чем старше школьник, тем больше у него ботинки и тем лучше он читает.
Корреляция между расходами на школьника и баллами за тесты может объясняться, например, работой администрации школы. Чем лучше она работает, тем больше средств привлекает и одновременно больше контролирует работу учителей, которая и обеспечивает высокие баллы.
Об этом еще будет рассказано в разделе «Отображение на графике несущественных данных». Прим. науч. ред.
[Закрыть] также оценить, в какой степени результат объясняется с помощью представленных переменных[41]41
С помощью корреляции можно также оценить… – До сих пор не угасает полемика: использовать r или r2? В защиту первого см. D’Andrade, R., & Dart, J. (1990). Интерпретация r в сравнении с r2, или почему учитываемый процент расхождения является простым измерением размера эффекта. Journal of Quantitative Anthropology, 2, 47–59. Ozer, D. J. (1985). Корреляция и коэффициент детерминации. Psychological Bulletin, 97(2), 307–315.
[Закрыть]. Корреляция 0,91 говорит о том, что мы можем объяснить 91 % студенческих баллов за тест SAT, посмотрев на количество школьных расходов на каждого студента. А значит, можем понять, насколько расходы объясняют разнообразие баллов SAT.
Осенью 2015 года в США во время заседания комитета Конгресса развернулась полемика, касающаяся графиков с двойной осью Y. Джейсон Чаффец представил график, отображающий две услуги, предоставляемые организацией Planned Parenthood, – аборты, а также скрининг и профилактику рака[42]42
Услуги, оказываемые Planned Parenthood… – Конгрессмен использует вводящий в заблуждение график, чтобы очернить Planned Parenthood, msnbc.com. В Politifact подробно изучили это дело и сравнили данные, указанные между конечными точками и добавочной контекстуальной информацией, которая сопровождала обычную критику, направленную на график. См. https://perma.cc/P8NY-YP49.
[Закрыть]:
Конгрессмен пытался донести мысль, что за семилетний период организация Planned Parenthood увеличила количество абортов (против чего он выступал) и снизила количество скринингов рака и профилактических процедур. Planned Parenthood этого не отрицала, но из-за искаженного графика кажется, что количество абортов превышает количество процедур, связанных с лечением рака. Возможно, тот, кто составлял график, чувствовал за собой вину и поэтому привел не только линии, но и актуальные числовые данные. Давайте посмотрим внимательнее. Количество абортов, сделанных за 2013 год (и на этом график заканчивается), равно 327 тысячам. А медицинских услуг, связанных с диагностированием и лечением рака, было оказано почти в три раза больше, 935 573. (Кстати, подозрительно, почему данные по абортам выражаются округленными числами, а те, что касаются рака, так точны.) Тут у нас особенно коварный случай: подразумевается, что на графике две оси Y, но обе они не изображены!
Если построить график как следует, получится вот так:
Мы видим, что количество абортов увеличилось очень незначительно, если сравнивать с сокращением услуг по диагностированию и лечению рака.
Есть еще кое-что, что вызывает подозрения в оригинальном графике: редко когда можно встретить столь ровные линии. Такое ощущение, что составитель графика просто взял данные за два определенных года, 2006-й и 2013-й, и сравнил их, соединив прямой линией. Возможно, два этих года были выбраны специально, чтобы усилить разницу. А может, в промежутке между 2007-м и 2012-м существовали большие колебания – нам это неизвестно. Ровные линии создают впечатление идеальной линейной (прямая линия) функции, что маловероятно.
Подобные графики не всегда отображают правдивые истории. Есть ли что-нибудь, что могло бы объяснить приведенные данные, помимо рассказа о том, что Planned Parenthood хочет провести как можно больше абортов (и в то же время позволяет людям умирать от рака)? Посмотрите на второй график. В 2006 году организация Planned Parenthood провела 2 007 271 исследование раковых опухолей и сделала 289 750 абортов, что примерно в семь раз меньше. К 2013 году эта разница сократилась, но количество раковых исследований все равно было примерно в три раза больше.
У Сесиль Ричардс, президента Planned Parenthood, имеется на этот счет объяснение: изменение медицинских норм при оказании некоторых услуг по предотвращению и лечению рака, например пап-мазка, сократило количество людей, которым был рекомендован скрининг. Другие изменения, например само отношение к абортам, изменение возрастной структуры населения, а также возросшее количество людей, имеющих доступ к альтернативным методам лечения, – повлияли на эти цифры, поэтому представленные данные не доказывают, что Planned Parenthood поддерживает аборты, хотя и не исключено, что так оно и есть.
Возможные уловки при сообщении данных
Вы раздумываете, стоит ли покупать акции компании, производящей безалкогольные напитки, и вдруг натыкаетесь на график, представляющий годовой отчет компании по продажам:
Выглядит многообещающе – продажи Peachy Cola постоянно растут. Пока что все идет хорошо. Но давайте припомним, как устроен наш мир, – и постараемся извлечь из этих знаний какую-нибудь пользу. Итак, мы знаем, что конкуренция на рынке безалкогольных напитков огромна. Продажи компании растут, но, возможно, не так быстро, как у конкурентов. Как потенциальному инвестору вам важно сравнить продажи Peachy Cola с продажами других компаний – ее продажи могут расти незначительно, в то время как рынок развивается особенно стремительно, а конкуренты зарабатывают больше, чем Peachy Cola. И как видно на этом графике с двойной осью Y, это, возможно, не сулит производителям ничего хорошего.
И хотя те, кто составляет недобросовестные графики, могут в корыстных целях как угодно менять шкалу на оси справа, сам по себе график с двойной осью Y нельзя считать предосудительным, потому что обе оси Y представляют разные вещи, которые не могут быть отображены на одной оси. В случае с организацией Planned Parenthood ситуация была иной: на том графике мы видели один показатель – количество проведенных процедур – на двух разных осях. И хотя они там отражали одно и то же, график был искажен, потому что шкалы на осях были разными. Сделано это было в целях манипуляции нашим восприятием.
Было бы также полезно посмотреть на прибыль от продаж Peachy Cola: вполне может оказаться, что благодаря производству и распространению компания зарабатывает больше на более низком объеме продаж. Тот факт, что кто-то предъявляет вам статистику или показывает график, еще не означает, что все это относится к делу. Наша всеобщая задача заключается в том, чтобы получить релевантную информацию и игнорировать те сведения, которые никакого значения не имеют.
Предположим, вы работаете в отделе по связям с общественностью в компании, производящей какого-то рода устройства – назовем их фрабезоиды. На протяжении последних нескольких лет эту продукцию охотно покупали, и продажи сильно выросли. Компания расширилась, построила новые объекты, увеличила штат сотрудников, и всем повысили зарплату. Однажды босс заходит в ваш кабинет с угрюмым выражением лица и говорит, что получил последние результаты продаж: количество проданных фрабезоидов упало на 12 % по сравнению с предыдущим кварталом. Президент компании планирует провести большую пресс-конференцию и поговорить о будущем: как это всегда бывает, он намерен продемонстрировать большой график, отображающий положение дел. Если станет известно о снижении продаж, покупатели могут подумать, что фрабезоиды не так уж желанны, – и это приведет к дальнейшему снижению продаж.
Что вы делаете? Если вы честно отобразите данные по продажам за последние четыре года, ваш график будет выглядеть следующим образом:
Кривая, идущая вниз, – это проблема. Если бы только был способ сделать так, чтобы она снова пошла вверх!
И такой способ есть – график кумулятивных продаж. Вместо графика квартальных продаж составьте график кумулятивных продаж – он отражает общее число продаж на текущий момент.
Как только продается хоть один фрабезоид, кривая идет вверх, как мы видим на этом графике:
Если присмотреться, можно увидеть, что в последний квартал дела шли не так гладко: хотя в этот период кривая по-прежнему идет вверх, происходит это не так резко. Это-то и поможет вам понять, что продажи упали. Но нашему мозгу сложно уловить подобные нюансы (то, что в математике называется первой производной, – вычурное словечко для наклона линии). Итак, при взгляде на график кажется, что дела компании идут в гору, а вы меж тем заставили огромное количество потребителей поверить в то, что фрабезоиды – по-прежнему самая желанная покупка.
Так же поступил и Тим Кук, CEO компании Apple, во время своей последней презентации по продажам iPhone[43]43
…презентации по продажам iPhone. – http://qz.com/122921/the-chart-tim-cook-doesnt-want-you-to-see/; http://www.tekrevue.com/tim-cook-trying-prove-meaningless-chart/.
[Закрыть].
© 2013 Die Verge, Vox Media Inc. (live.theverge.com/apple-iphone-5s-liveblog/)
Отображение на графике несущественных данных
В мире столько всего происходит, что всегда находится место совпадениям. Количество зеленых грузовиков на дороге может увеличиваться одновременно с вашей зарплатой; когда вы были ребенком, количество телешоу могло увеличиваться так же, как и ваш рост. Но это не означает, что одно есть причина другого. Статистики называют это корреляцией.
Известно, что корреляция не подразумевает причинность, однако об этом правиле часто забывают в рассуждениях. Для ошибок такого рода в формальной логике есть две формулировки.
1. Post hoc, ergo propter hoc[44]44
После этого, следовательно, по причине этого (лат.).
[Закрыть]. Данное логическое заблуждение возникает из уверенности в том, что если один факт (Y) произошел после второго (X), значит, X стал причиной Y. Обычно люди чистят зубы до того, как пойти утром на работу. Но чистка зубов не есть причина, по которой они идут на работу. В данном случае все может быть наоборот.
2. Cum hoc, ergo propter hoc[45]45
Вместе с этим, следовательно, по причине этого (лат.).
[Закрыть]. Это логическое заблуждение состоит в том, что из совпадения по времени двух фактов заключают, что один должен быть причиной второго. Тайлер Виджен, студент юридического факультета Гарвардского университета, написал книгу и создал сайт, где собрал примеры странных совпадений – корреляций, например таких[46]46
…примеры странных совпадений – корреляций… – http://www.tylervigen.com/spurious-correlations.
[Закрыть]:
Эти данные можно интерпретировать четырьмя разными способами: 1) смерть в бассейне вызывает выход нового фильма с Николасом Кейджем; 2) выход фильмов с Николасом Кейджем становится причиной смерти в бассейне; 3) некий третий фактор (который еще не установлен) влияет на оба показателя; 4) показатели никак не связаны между собой, и корреляция – чистой воды совпадение. Если мы не отделим корреляцию от причинности, то сможем со всей уверенностью заявить, что график Виджена «доказывает» посильную помощь Ника Кейджа в предотвращении всех этих смертей в бассейне. И нам остается только поддерживать образовавшуюся тенденцию, чтобы актер и дальше развивал свою удивительную способность, которую он с блеском продемонстрировал в 2003 и 2008 годах.
В некоторых случаях между показателями, кажущимися взаимосвязанными, нет никакой настоящей связи: факт их корреляции – просто совпадение. В других же случаях можно найти между ними случайную связь, а то и состряпать более-менее разумную историю, которая подстегнула бы к поиску новых данных.
Мы можем исключить первое объяснение, так как на создание и выпуск фильма требуется время, поэтому пик смертности от утопления не мог вызвать пик популярности Ника Кейджа в том же году. Как насчет второго пункта? Возможно, люди настолько проникаются сюжетом остродраматических фильмов Кейджа, что не помнят себя и, как следствие, тонут. Возможно, по той же причине увеличивается и количество автомобильных аварий, а также травм, полученных в результате работы с тяжелым оборудованием. Мы не найдем ответов на эти вопросы, пока не проанализируем больше данных.
Что же насчет третьего фактора, который влияет на оба показателя? Можно предположить, что влияние оказывает экономика государства: чем более она развита, тем больше инвестиций идет в досуг – выпускается больше фильмов, люди чаще ездят в отпуск, ходят плавать. Если это так, то ни одна из ситуаций, частоту которых описывает график, – выход фильма Ника Кейджа и утопление – не бывает причиной другой. Свою роль тут сыграл третий фактор – экономика, – он и приводит к изменениям в обоих случаях. Статистики называют это третьим фактором x. И подобных случаев множество.
Вероятнее всего, эти две ситуации совсем никак не взаимосвязаны. А если присмотреться и хорошенько подумать, то мы обязательно обнаружим, что здесь одновременно изменяются два не связанных друг с другом показателя.
Продажи мороженого увеличиваются одновременно с ростом числа людей в шортах. Нельзя сказать, что один из фактов – причина второго. Третий фактор x, который на самом деле влияет на оба факта, – это повышение температуры летом. Количество телешоу, выпущенных в эфир в то время, когда вы были ребенком, возможно, коррелировало с вашим ростом, но несомненно, что причиной одинакового изменения обоих показателей стал общий период времени, когда: а) телевидение расширяло свой рынок и б) вы росли.
Как же тогда понять, в каких случаях корреляция указывает на причинность? Во-первых, можно провести контролируемый эксперимент. Во-вторых, включить логику. Но будьте внимательны – тут легко утонуть в трясине пустословия: это дождь вчера вынудил людей надеть дождевики? Или причиной стало желание не намокнуть, появляющееся, когда идет дождь?
Эту идею хорошо представил Рэнделл Манро[47]47
Рэнделл Манро (Randall Munroe, р. 1984) – художник, программист. Работал в НАСА, занимался проблемами робототехники. Начатый в качестве хобби комикс xkcd – в настоящий момент его основное дело.
[Закрыть] в своем веб-комиксе xkcd: разговаривают две фигурки, очевидно, студенты колледжа[48]48
…представил Рэнделл Манро в своем веб-комиксе xkcd. – https://xkcd.com/552/.
[Закрыть]. Один говорит, будто раньше думал, что корреляция подразумевает причинность. Потом, правда, походил на занятия по статистике и теперь уже так не думает. На что второй студент отвечает: «Кажется, занятия сделали свое дело». А первый ему на это: «Да, может быть».
Обманчивые иллюстрации
Инфографика в большом почете у разных ловкачей и пройдох, которым нужно сформировать мнение аудитории, и полагаются они на то, что большинство людей не станут вникать в то, что выглядит убедительно. Вот, например, посмотрите на этот рисунок. Возможно, с его помощью кто-то хотел напугать вас и заставить думать, что быстро растущая инфляция съедает все ваши с таким трудом зарабатываемые деньги:
Выглядит страшновато, правда? Но присмотритесь. Ножницы отрезают не 4,2 % от банкноты, а около 42 %. Когда ваша визуальная система сталкивается с логической, первая всегда выходит победителем, если только вы не приложите усилий, чтобы переломить это предубеждение[49]49
…когда ваша визуальная система сталкивается с логической… – В основе этого примера лежит материал из Huff. https://xkcd.com/552/.
[Закрыть]. Точная инфографика выглядела бы похоже, но производила бы менее сильный эмоциональный эффект:
Интерпретация и фрейминг
Иногда статистические данные собраны и описаны как следует, а вот переданы неверно, потому что тот, кто передавал, – не важно, будь то журналист или адвокат, – не специалист в этом вопросе. И ошибки он допускает либо потому, что сам не понял, либо потому, что не осознавал, что малейшее изменение в формулировке может привести к изменению в смысле.
Часто у тех, кому хочется использовать статистику, в штате нет статистиков, и в поиске ответов на свои вопросы они попадают к тем, у кого нет соответствующей компетенции. Корпорации, правительственные учреждения, некоммерческие организации, семейные бакалейные лавочки – все они пользуются статистическими данными о продажах, клиентах, тенденциях, сетях снабжения. Некомпетентность может проявиться на любой стадии: во время проведения эксперимента, сбора данных, анализа или интерпретации.
Иногда бывает так, что публикуемые статистические данные нерелевантны. Если вы пытаетесь убедить своих акционеров, что дела вашей компании идут в гору, то, возможно, стоит предложить статистические данные по годовым продажам и показать уверенно растущие цифры. Но если рынок, на котором представлен ваш продукт, растет и развивается, от вас будут ждать увеличивающихся продаж. Инвесторов и аналитиков волнует, изменилась ли ваша доля на рынке. Но как сделать отчет более привлекательным, если эта доля уменьшается, потому что налетели конкуренты и теперь уводят ваших клиентов? Ответ прост: не предоставлять релевантную статистику по доле на рынке – вместо этого покажите статистику продаж. Продажи-то растут! Значит, все хорошо!
Финансовые показатели из заявлений на ипотеку 25-летней давности, вероятно, не сильно помогут в построении модели риска сегодня. Любая модель поведения потребителей на сайте устаревает очень быстро[50]50
Любая модель поведения потребителей… – Почти дословная цитата из De Veaux, R. D., & Hand, D. J. (2005). How to lie with bad data. Statistical Science, 20(3), 231–238, p. 232.
[Закрыть]. Статистические данные о прочности бетона, использованного для эстакад, возможно, уже не релевантны для мостов (отличия могут быть вызваны влажностью и иными факторами, даже в случае, если в обоих инженерных проектах использовался один и тот же бетон).
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?