Читать книгу "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"

Текст добавлен: 24 июня 2021, 11:00

Автор книги: Дэвид Хэнд

Жанр: Экономика, Бизнес-Книги

Возрастные ограничения: 12+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 6 (всего у книги 23 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

Остерегайтесь человеческих слабостей

В этой главе мы рассматриваем три основных способа сбора данных. Полученные данные рассеивают мрак вокруг и освещают нам новые миры. Но стратегии их сбора разрабатываем и воплощаем мы сами, и мы же впоследствии интерпретируем и анализируем собранные данные. При этом наши решения о том, какие данные собирать и что означают результаты анализа, основываются на предыдущем опыте, который может не отражать того, что ждет нас в будущем. Если копнуть еще глубже, наши решения обусловлены нашим эволюционным развитием. Эти факторы становятся причиной того, что мы совершаем ошибки, не в состоянии должным образом сбалансировать данные, и часто выбираем не самый рациональный путь. Короче говоря, мы уязвимы для всевозможных подсознательных когнитивных искажений.

Эвристика доступности – одно из таких искажений. В ее основе лежит склонность судить о вероятности события, исходя из того, насколько легко мы можем вспомнить соответствующий пример. Если недавно в новостях сообщалось о крушении самолета, то мы склонны думать о крушениях самолетов как о более вероятных событиях. Реклама использует этот эффект, делая так, чтобы при возникновении потребности в определенном продукте вы вспомнили о конкретном бренде, а воспоминания о конкурирующих с ним брендах оказались подавлены. Этот же эффект объясняет, по крайней мере отчасти, внезапные скачки выявления отдельных медицинских состояний или видов социального насилия после того, как общество сосредотачивается на них. Например, в главе 3 мы рассмотрим пример с ростом уровня диагностирования аутизма в Соединенных Штатах после 2000 г. Во многом это объясняется как раз эвристикой доступности. Если на людей со всех сторон сыпется информация о такого рода состояниях, неудивительно, что они начинают везде видеть его признаки. Действительно, исследования показали, что в семьях, живущих по соседству с аутичными детьми, родители чаще выискивают проявления такого диагноза у собственного ребенка.

Эвристика доступности связана с другим когнитивным искажением – ошибкой базового процента. Предположим, что вы проходите тестирование на редкое заболевание и знаете, что этот тест на 100 % точен, когда выявляет заболевание у тех, у кого оно есть, и на 99 % – когда показывает его отсутствие у тех, у кого его нет. Какой вывод вы сделаете, если ваш тест окажется положительным? На первый взгляд кажется, что вы почти наверняка больны. Но это заблуждение, поскольку правильный ответ зависит от базового процента, то есть от того, у скольких людей в популяции есть заболевание. Например, если заболевание настолько редкое, что его имеет только 1 из 10 000 человек, то из каждых 101 человека, получивших положительный результат теста, на самом деле болен только 1 (в среднем!). Несмотря на то, что тест вроде бы редко дает ошибку с теми, у кого болезни нет, их число намного больше, чем число больных, поэтому почти все, у кого диагностировано заболевание, получат неправильные диагнозы. Если мы игнорируем или не осознаем тот факт, что подавляющая часть населения не имеет этой болезни, мы допускаем ошибку. В Гарварде более 56 % студентов-медиков, проходя тест, описывающий эту ситуацию, дали неправильные ответы. К сожалению, были и другие исследования, которые показали аналогичные результаты уже с практикующими врачами. Базовый процент, по крайней мере для этих студентов и врачей, был темными данными.

Ошибка базового процента возникает потому, что люди не осознают или игнорируют соответствующие данные. Та же причина лежит в основе ошибки конъюнкции. Это тенденция считать конкретные условия более вероятными, чем общие. Вот классическая иллюстрация этого когнитивного искажения.

Мой друг Фред – университетский профессор, который ведет курс по истории викторианской Англии, Америки XIX в. и мировой торговли в том же XIX в. В свободное время он увлекается чтением толстенных жизнеописаний и проводит свой отпуск исключительно в местах, представляющих археологический или исторический интерес. Теперь скажите, что, по вашему мнению, более вероятно: то, что у Фреда есть борода (вариант А), или то, что у Фреда есть борода и он является попечителем местного исторического музея (вариант Б)?

Многие люди выбирают вариант Б, но, если задуматься хотя бы на секунду, становится ясно, что это полный абсурд. Вариант Б является лишь подмножеством варианта А, поэтому вариант А более вероятен. Причина, по которой люди совершают эту ошибку, заключается в том, что, как и в случае с эвристикой доступности, они делают вывод на основании соответствия предложенных вариантов описанию Фреда. Кто-то с его характеристиками вполне мог бы оказаться попечителем местного исторического музея, так почему бы не отдать это место Фреду?

Предвзятость подтверждения – еще один риск, которому подвержено наше восприятие. Тогда как ошибка базового процента и эвристика доступности возникают, если игнорируются данные некоторой совокупности, предвзятость подтверждения связана с тем, что зачастую люди активно, хотя и подсознательно, ищут данные, которые неадекватно представляют эту совокупность. В частности, мы склонны выискивать информацию, которая поддерживает нашу точку зрения, и игнорировать данные, противоречащие ей. Возьмите, к примеру, Джин Диксон. Госпожа Диксон, настоящее имя которой Лидия Эмма Пинкерт, была одним из самых известных экстрасенсов Америки. Вплоть до своей смерти в 1997 г. она вела газетную колонку, цитируемую многими изданиями, а ее биография «Пророческий дар: Феноменальная Джин Диксон» (A Gift of Prophecy: The Phenomenal Jeane Dixon) разошлась тиражом более 3 млн экземпляров. Фактически из огромного количества предсказаний, которые она сделала, большинство оказались неверными. Кто знает, может, она и сама верила в свою способность предсказывать будущее, вспоминая лишь сбывшиеся предсказания и начисто игнорируя все прочие. Но многие точно не сомневались в ее сверхъестественной силе, основываясь на сбывшихся пророчествах и забывая о несбывшихся, эффективно загоняя их в область темных данных DD-тип 3: выборочные факты. Психологические эксперименты, в которых людям показывают ряд примеров, отчетливо демонстрируют, что то, во что мы верим, может влиять на то, что мы помним.

Дополнительным проявлением предвзятости подтверждения является также то, что люди склонны забывать опровергающие доказательства, если они противоречат их первоначальным убеждениям.

Существуют и другие причины, по которым люди делают неправильные выводы, подсознательно игнорируя часть данных. Среди них можно выделить феномен негативного восприятия – тенденцию легче вспоминать неприятные события, чем приятные; эффект уступчивости, из-за которого респонденты говорят то, что, по их мнению, интервьюер желает услышать; эффект повального увлечения, когда люди склонны примыкать к большинству; ошибку правдоподобия, при которой ответ зависит от того, насколько правдоподобным считает его респондент; и эффект причудливости, из-за которого все необыкновенное запоминается лучше, чем привычное. На фоне всего этого кажется просто поразительным, что мы хоть что-то умудряемся делать правильно!

Явления, описанные в этом разделе, закономерно ведут к излишней самонадеянности: если большинство доказательств, которые вы можете вспомнить, говорят в пользу определенной позиции, то у вас есть все основания полагать, что эта позиция верна. И проблема усугубляется так называемыми эхо-камерами, которые мы обсудим в главе 5.

Знание о когнитивных искажениях в какой-то степени помогает избегать их в исследованиях, но они все равно могут подкрасться к нам с неожиданной стороны. Это хорошо показывают исследования влияния формулировок опроса, когда по-разному заданный вопрос приводит к противоречивым ответам. Например, когда одной и той же группе задают и положительную, и отрицательную версии вопроса («Вам понравился фильм?» и «Вам не понравился фильм?»), число людей, отвечающих «нет» на первый и «да» на второй вопрос по идее должно быть одинаковым (при условии, что есть только два варианта ответа без опции «не знаю»). Но часто это не так. Ошибка измерения, которая скрывает истинные значения, может находиться в сознании самих респондентов.

Глава 3
Определения и темные данные
Что именно вы хотите узнать?

Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем ли при этом искажений. Каждое из этих условий чувствительно к темным данным. Фактически число потенциальных рисков, связанных с темными данными, настолько велико, что составить их полный перечень просто невозможно. Тем не менее представление о типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора данных, а в следующей – то, как этих целей достигать, причем и то и другое сквозь призму нашей основной темы.

Ошибки в определениях и измерениях

Одна из фундаментальных причин возникновения темных данных – использование неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. Давайте разберем это на примерах.

Иммиграция

Опросы всегда проводят с конкретной целью, административные же данные собирают по множеству причин. Это означает, что административные данные могут не содержать ответа на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности статистики по долгосрочной международной миграции (LTIM). Национальная статистическая служба в соответствии с данными Отчета по международным пассажирским перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, зарегистрировавшихся для получения номеров социального страхования, за этот период составило 655 000 человек. Номера социального страхования – это личные счета всех, кто работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и взносов в систему национального страхования (куда относятся в том числе медицинские страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, что цифры Национальной статистической службы далеки от реальности. По этому поводу британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. Номера социального страхования – это простое и четкое отражение реального числа людей в этой стране, так как без такого номера вы не сможете ни легально работать, ни претендовать на получение пособия»[39]39
http://www.bbc.co.uk/news/uk-politics-eu-referendum-35959949.

[Закрыть].

Отчет по международным пассажирским перевозкам, который учитывает основные пассажиропотоки через британские воздушные и морские порты, а теперь еще и Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя это число представляет лишь небольшую часть людей, приезжающих в Великобританию, ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 000, и заявила, что на 95 % уверена в попадании истинных цифр в этот диапазон. Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа номеров социального страхования.

Когда Национальная статистическая служба подробно изучила расхождение между своей оценкой и числом номеров социального страхования, оказалось, что основной причиной этой разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 месяцев)[40]40
Цифры по иммиграции: https://bit.ly/2M3Rjab, accessed 2 January 2018.

[Закрыть]. Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные мигранты могут работать и подавать заявки на получение номеров социального страхования, но определяющим показателем в данном случае должна быть статистика LTIM (по долгосрочной международной миграции). Национальная статистическая служба заявила, что «различие определений этих данных является фундаментальным и невозможно обеспечить согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти регистрационные данные не могут служить показателем LTIM». Короче говоря, административные данные были полезны в тех вычислениях, для которых они были собраны, и не подходили для других целей. Неподходящие или несоответствующие определения эффективно скрывают интересующие нас данные и превращают их в темные данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные становятся или не становятся темными в зависимости от того, что вы хотите узнать.

Преступность

Другой пример темных данных, возникающих из-за различий в определениях, дает нам статистика преступности. На национальном уровне такая статистика по Англии и Уэльсу поступает из двух основных и довольно далеких друг от друга источников: Обзор преступности в Англии и Уэльсе (CSE & W) и полицейская статистика правонарушений (PRC). CSE & W является эквивалентом Национального обзора преступности и виктимизации в США. Он был запущен в 1982 г. (одновременно с Британским обзором преступности) для изучения опыта столкновения с преступностью в течение последнего года. Данные PRC предоставляются 43 полицейскими управлениями Англии и Уэльса, а также Британской транспортной полицией, и анализируются Национальной статистической службой.

Различия в характере этих процессов сбора информации непосредственно влияют на возникновение темных данных. Поскольку обзор CSE & W призван выяснить, жертвами каких преступлений становились респонденты, то он по определению не дает никакой информации, скажем, об убийствах или хранении наркотиков. Он также не затрагивает людей в местах коллективного проживания, таких как дома престарелых или студенческие общежития, и не распространяется на преступления против коммерческих организаций или государственных органов. Это говорит о большом потенциале для темных данных, хотя когда мы четко определяем охватываемую обзором область, то делаем этот риск видимым.

Статистика PRC также содержит темные данные, но они отличаются от темных данных обзора CSE & W. По определению, статистика PRC не включает в себя преступления, о которых не сообщают полиции, например, потому, что жертвы порой не рассчитывают на ее помощь. Это существенный момент, поскольку, согласно оценкам, в полицию сообщают в среднем только о 4 из 10 преступлений, хотя и очевидно, что это число различно для разных видов преступности. Более того, в полицейской статистике отражаются в основном так называемые регистрируемые преступления, которые могут быть рассмотрены судом присяжных. Дополнительные сложности возникают из-за механизмов обратной связи (DD-тип 11: искажения обратной связи и уловки). Например, число преступлений, связанных с хранением наркотиков, зависит от активности самой полиции, а эта активность зависит от предполагаемого объема наркотиков, имеющихся у людей, на который влияет число зафиксированных преступлений, связанных с хранением наркотиков, в прошлом.

Использование разных определений объясняет расхождения между уровнями преступности, которые публикуют эти два источника. Например, в 1997 г., по данным PRC, было совершено 4,6 млн правонарушений, в то время как, по оценкам CSE & W, их было 16,5 млн. Различия в определениях также объясняют крайне озадачивший экспертов и читателей факт, состоящий в том, что, согласно PRC, число преступлений в период с 1997 по 2003 г. возросло (с 4,6 млн до 5,5 млн, в то время как обзор показал сокращение их количества (с 16,5 млн до 12,4 млн)[41]41
Office for National Statistics: “Crime in England and Wales: Year ending June 2017,” https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/bulletins/crimeinenglandandwales/june2017#quality-and-methodology, accessed 4 January 2018.

[Закрыть]. Так все-таки, растет или сокращается преступность? Несложно догадаться, чьи данные выбрало большинство СМИ для публикации.

Медицина

Число областей, в которых определения могут порождать темные данные по причине того, что они не включают те виды данных, которые мы хотели бы получить, огромно. Иногда последствия таких ситуаций бывают просто поразительными. Например, именно проблема несоответствия определений лежит в основе того факта, что сегодня от болезни Альцгеймера умирает больше людей, чем в прошлом.

Болезнь Альцгеймера представляет собой наиболее распространенную форму деменции. Она носит прогрессирующий характер, когда на ранней стадии появляется незначительная забывчивость, которая на более поздних стадиях перерастает в дезориентацию, неспособность понимать происходящее вокруг и изменение личности. Считается, что болезнь в ближайшее время затронет около 50 млн человек во всем мире и со временем этот показатель будет только расти, достигнув, по прогнозам, к 2030 г. 75 млн. И темные данные могут объяснить такой рост как минимум двумя способами.

Во-первых, никто не умирал от этой болезни до 1901 г., поскольку именно тогда немецкий психиатр Алоис Альцгеймер впервые описал случай заболевания, которое впоследствии было названо его именем. Кроме того, первое время диагноз ставили только людям в возрасте от 45 до 65 лет с симптомами деменции и лишь позже, уже в последней четверти XX в., было снято ограничение по возрастному диапазону. Очевидно, что такое расширенное определение изменило число диагностированных людей. Данные, которые ранее рассматривались как несущественные, попали в поле зрения.

Во-вторых (и это объяснение роста смертности от болезни Альцгеймера может показаться парадоксальным), во всем виноват прогресс медицинской науки. Благодаря ему люди, которые раньше бы умерли молодыми, теперь могут прожить достаточно долго, чтобы стать потенциально уязвимыми для таких медленно развивающихся недугов, как болезнь Альцгеймера. Это заставляет задуматься, действительно ли продление жизни является абсолютным благом.

Тот факт, что число диагностируемых случаев аутизма в Соединенных Штатах удвоилось с 2000 г., также может быть в значительной степени объяснен темными данными (DD-тип 8: неверно определяемые данные)[42]42
J. Wright, “The real reasons autism rates are up in the U.S.” Scientific American, March 3, 2017, https://www.scientificamerican.com/article/the-real-reasons-autism-rates-are-up-in-the-u-s/, accessed 3 July 2018.

[Закрыть]. В главе 2 мы уже рассмотрели одну из причин этого – эвристику доступности, когда сам факт аутизма все более осознается обществом. Но есть и другая серьезная причина такого роста, которая состоит в том, что изменения претерпел сам подход к определению и диагностике аутизма. В частности, хотя в 1980 г. аутизм был включен в «Диагностическое и статистическое руководство по психическим расстройствам», в 1987 и в 1994 гг. метод его диагностики был существенно изменен, при этом критерии были ослаблены. Такое ослабление диагностических критериев соответствия означает, что им удовлетворяет большее число людей.

Вдобавок к этому в 1991 г. министерство образования США постановило, что диагноз «аутизм» дает право ребенку на специальные образовательные услуги, а в 2006 г. Американская академия педиатрии рекомендовала педиатрам проверять всех детей на аутизм во время стандартных визитов на дом. Если меняется сам подход к определенным данным, то вполне логично ожидать, что и поведение людей при сборе этих данных тоже будет меняться (это явление обратной связи мы подробно рассмотрим в главе 5). Такой же эффект можно проследить на примере запуска в Англии в феврале 2009 г. сразу нескольких кампаний национального масштаба по профилактике деменции среди населения в соответствии с Национальной стратегией по деменции, направленной на улучшение качества диагностики и медицинской помощи. Неудивительно, что по сравнению с 2009 г. частота выявления деменции увеличилась примерно на 4 % в 2010 г. и на 12 % в 2011 г.[43]43
N. Mukadam, G. Livingston, K. Rantell, and S. Rickman, “Diagnostic rates and treatment of dementia before and after launch of a national dementia policy: An observational study using English national databases. BMJ Open 4, no. 1 (January 2014), http://bmjopen.bmj.com/content/bmjopen/4/1/e004119.full.pdf, accessed 3 July 2018.

[Закрыть]

Экономика

В целом можно заключить, что изменение определений с течением времени часто меняет и характер собираемых данных. Это не только затрудняет ретроспективные сравнения, но также может вызвать обвинения в нечестности. Ярким примером служит определение безработицы: достаточно слегка изменить его и, о чудо, результаты работы правительства начинают выглядеть намного лучше.

Другим примером в экономике является измерение инфляции. Оно основано на изучении цен на определенный набор товаров и услуг, называемых потребительской корзиной (которой в природе, конечно, не существует), и отслеживании изменений средней цены на эту корзину с течением времени. Однако из-за существования темных данных (DD-тип 8: неверно определяемые данные) все обстоит не так уж просто. Например, возникает вопрос о том, как рассчитать среднее значение, поскольку в статистике есть несколько способов сделать это: среднее арифметическое, среднее геометрическое, среднее гармоническое и т. д. Недавно Великобритания перешла от индекса инфляции, основанном на среднем арифметическом, к индексу на основе среднего геометрического, что привело его в соответствие с индексами большинства других стран. Когда меняется определение, вы начинаете смотреть на вещи с другой точки зрения, поэтому меняются и аспекты данных, которые вы видите.

Помимо изменения формулы расчета, бывают и более фундаментальные причины, по которым темные данные возникают в индексах инфляции: прежде чем производить расчет, необходимо решить, какие товары и услуги включать в потребительскую корзину и как именно получать информацию о ценах. В целом, как показали предыдущие примеры, мы должны осознавать риск появления темных данных всякий раз, когда в процессе сбора данных встаем перед выбором. При расчете инфляции важнейший вопрос – что положить в потребительскую корзину – потенциально проблематичен, поскольку общество меняется, а индексы инфляции должны так или иначе отражать стоимость жизни. Я намеренно использовал выражение «так или иначе», чтобы подчеркнуть неоднозначный факт: разные индексы измеряют разные аспекты влияния инфляции. Одни измеряют то, как ценовые изменения влияют на людей, другие – как они влияют на экономику в целом и т. д. В любом случае важно, чтобы потребительская корзина была релевантной, то есть состояла из товаров и услуг, которые люди действительно покупают. Для сравнения представим, что могло быть включено в корзину индекса цен 200 лет назад, и сопоставим с тем, что входит в нее сегодня. Два столетия назад свечи были бы важнейшим элементом корзины, но сегодня расходы на них далеки от того, чтобы счесть их значимыми. Свечи и уголь уступили место мобильным телефонам и автомобилям. Это означает, что у нас есть номинальный список товаров, которые в принципе могут быть включены в корзину, но не все из них в нее попадают. Несмотря на глубокое продумывание того, какие именно товары следует учитывать, ясно, что при расчете инфляционных индексов всегда остается элемент неопределенности и произвола.

Что касается того, как получать информацию о ценах на товары в корзине, то традиционно для этого принято проводить опросы и направлять сборщиков данных непосредственно в магазины и на рынки. Бюро трудовой статистики США обследует таким образом около 23 000 предприятий и регистрирует цены около 80 000 предметов потребления каждый месяц, суммируя их, чтобы получить индекс потребительских цен. Другие страны используют аналогичный подход.

Возможно, вы заметили, что этот традиционный метод сбора ценовых данных полностью игнорирует покупки онлайн. Учитывая, что на такие покупки в настоящее время приходится уже около 17 % розничных продаж в Великобритании[44]44
https://www.ons.gov.uk/businessindustryandtrade/retailindustry/timeseries/j4mc/drsi.

[Закрыть] и почти 10 % розничных продаж в США[45]45
https://www.census.gov/retail/mrts/www/data/pdf/ec_current.pdf.

[Закрыть], становится ясно, что многие релевантные цены никак не учитываются в индексе. (Стоит отметить, что последние цифры действительны на момент написания книги, в то время как тенденция стремительно нарастает.) По этой причине многие страны начали разрабатывать методы учета цен в интернете. Эти методы не являются копией традиционных, потому что корзины в том и другом случае отличаются. Мы увидим пример такого метода в главе 10.

Общество меняется непрерывно, а сегодня это происходит куда быстрее, чем когда-либо в прошлом, поскольку компьютер и сопутствующие ему технологии – мониторинг, глубинный анализ данных, искусственный интеллект, автоматизированные транзакции и глобальная сеть – оказывают все большее влияние. Такая скорость изменений имеет важные последствия для анализа информации с точки зрения темных данных, поскольку прогнозы всегда строятся на том, что случалось в прошлом. Последовательности данных во времени в науке называют временными рядами. Скорость изменения методов и технологий сбора данных означает, что временные ряды часто ограничены весьма недавним прошлым. Новые типы данных потому и называются «новые», что они имеют недолгую историю и доступны лишь за относительно короткий период времени. За пределами же его лежит тьма.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!