Автор книги: Cет Cтивенс-Давидовиц
Жанр: Зарубежная компьютерная литература, Зарубежная литература
Возрастные ограничения: +18
сообщить о неприемлемом содержимом
Текущая страница: 2 (всего у книги 18 страниц) [доступный отрывок для чтения: 6 страниц]
Мужчина, муж предыдущей женщины, в отпуске с шестью своими лучшими друзьями. Он набирает в Google: «Признаки того, что ваша жена изменяет».
Некоторые из этих данных содержат информацию, о которой в иной ситуации никто никогда не узнал бы. Если мы объединим все это, сохраняя анонимность, строго следя за тем, чтобы никто никогда не узнал о страхах, желаниях и поведении конкретных лиц, и добавим некоторые научные данные, мы начнем по-новому смотреть на людей – их поведение, их желания, их характеры.
Рискуя показаться пафосным, скажу: фактически я пришел к выводу, что новые данные, ставшие более доступными в нашу цифровую эпоху, способны радикально расширить наше понимание человеческой природы. Микроскоп позволил нам увидеть в капле воды из пруда гораздо больше, чем мы думали. Телескоп показал нам в ночном небе намного больше того, что мы видели невооруженным глазом. И теперь новые цифровые данные открывают нам в человеческом сообществе многое из того, что было скрыто. Они могут стать нашими современными микроскопом или телескопом, и полученная ими информация, возможно, приведет к важнейшим, даже революционным открытиям.
В подобных высказываниях есть еще один рискованный момент: они могут воприниматься не только как пафосные, но и трендовые. Многие делали серьезные заявления о могуществе больших данных, не приводя никаких доказательств. Это побудило людей, скептически относящихся к большим данным, которых тоже немало, отвергнуть идею исследования больших массивов данных. «Я не говорю, что нет никакой информации в больших данных, – пишет публицист и статистик Нассим Талеб, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».
Одна из основных целей этой книги – представить недостающие доказательства и показать, что можно сделать с большими данными, то есть как можно при желании находить иголки в непрерывно растущих стогах сена. Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение, чтобы вы могли увидеть очертания чего-то действительно революционного.
«Постой, Сэт, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Ты так красноречиво разглагольствуешь об этих больших новых наборах данных. Но до сих пор ты использовал весь этот поразительный, впечатляющий, умопомрачительный, новаторский набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».
Я допускаю, что иногда новые данные просто подтверждают очевидное. Если вы считаете, что эти выводы были очевидны, подождите, пока не доберетесь до четвертой главы, где я предоставлю вам отчетливые и неопровержимые доказательства, полученные на базе поиска в Google, подтверждающие, что у мужчин существует серьезная озабоченность и неуверенность по поводу – чего бы вы думали? – размера своего пениса.
Это, я бы сказал, имеет определенную ценность в качестве доказательства того, о чем вы, возможно, уже подозревали, но не имели достаточно данных для подтверждения своих подозрений. Подозревать – это одно, доказать – совсем другое. Но если все, на что способны большие данные – подтверждение ваших подозрений, это не будет чем-то революционным. К счастью, большие данные могут гораздо больше. Снова и снова они показывают мне, что все происходит совсем не так, как я предполагал. Вот некоторые примеры, которые вы могли бы счесть достаточно впечатляющими и неожиданными.
Можно предположить, что основной причиной расизма является экономическая незащищенность и уязвимость. Вы, естественно, подозреваете, что, когда люди теряют работу, их расизм усиливается. Но на самом деле при увеличении безработицы не увеличивается ни количество расистских поисковых запросов, ни число членов Stormfront.
Принято думать, что состояние тревожности в основном присуще жителям больших городов, где много высокообразованных людей. Городской невротик – это известный стереотип. Но количество запросов в Google, отражающих тревожность, таких как «симптомы тревожности» и «помощь при состоянии тревожности», как правило, выше в местах с низким уровнем образования, там, где меньше средний доход и где большая часть населения живет в сельской местности. То есть более высокий уровень числа поисковых запросов, связанных с тревожностью, в сельской местности, на севере штата Нью-Йорк, а не в самом Нью-Йорке.
Вы считаете, что теракт, в результате которого погибли десятки или сотни людей, автоматически приведет к широкому распространению массовой тревожности. Терроризм по определению должен внушать чувство страха. Я просмотрел поисковые запросы в Google, отражающие беспокойство, и отследил рост числа этих поисков по стране в последующие дни, недели и месяцы после каждой крупной террористической атаки в Европе или Америке, начиная с 2004 года. Итак, на сколько же в среднем выросло число поисковых запросов, связанных с тревожностью? Ни на сколько. Совсем.
Вы думаете, что люди чаще ищут анекдоты, когда им грустно. Многие из величайших мыслителей утверждали, что мы обращаемся к юмору как к обезболивающему. Юмор уже давно воспринимается как способ справиться с огорчениями, болью, неизбежными разочарованиями в жизни. Как выразился Чарли Чаплин: «Смех – это тоник, способ расслабиться, забыть о страданиях».
Тем не менее в понедельник – день с репутацией самого несчастливого – уровень поиска шуток самый низкий. То же можно сказать про пасмурные и дождливые дни. И этот уровень резко падает после крупной трагедии, например, когда в результате взрыва двух бомб погибло трое и были ранены сотни людей во время Бостонского марафона 2013 года. На самом деле люди предпочитают шутки, когда дела идут хорошо, а не наоборот.
Иногда новый массив данных выявляет такие поступки, стремления или отношения, которые я бы даже никогда и предположить не мог. В эту категорию попадают многочисленные сексуальные предпочтения. Например, известно ли вам, что в Индии большинство поисковых запросов начинается со слов «мой муж хочет…». Например: «Мой муж хочет, чтобы я кормила его грудью»{11}11
Это обсуждается Seth Stephens-Davidowitz, «What Do Pregnant Women Want?» («Чего хочет беременная женщина?»), New York Times, 17 мая 2014 года, SR6.
[Закрыть]. Этот запрос распространен в Индии гораздо больше, чем в других странах. Кроме того, уровень поиска по порносайтам изображений, где женщина кормит мужчину грудью, в Индии и Бангладеш в четыре раза выше, чем в любой другой стране. Я, конечно, никогда и не подозревал ни о чем подобном до того, как увидел эти данные.
Тот факт, что мужчины одержимы размером своего пениса, может, и не слишком неожиданный, но вот то, что вызывает наибольшую обеспокоенность у женщин, касаемо их тела, по данным Google, действительно вызывает удивление. Опираясь на эти новые данные, женским эквивалентом комплекса по поводу размера полового члена можно считать – выразительная пауза! – переживание о том, как пахнет их вагина. Женщины выполняют почти столько же поисков, выражая озабоченность по поводу своих гениталий, как и мужчины, беспокоящиеся о размере своих. Главной заботой женщины является ее запах и то, как она может его улучшить. Разумеется, я не знал этого, пока не обнаружил такие данные.
Иногда новые данные показывают культурные различия, о которых я даже не задумывался. Вот один пример: очень по-разному люди по всему миру реагируют на беременность своих жен. В Мексике топ-запросы «моя беременная жена» включают фразы «frases de amor para mi esposa embarazada» (признание в любви моей беременной жене) и «poemas para mi esposa embarazada»{12}12
Stephens-Davidowitz, «What Do Pregnant Women Want?» («Чего хочет беременная женщина?»)
[Закрыть] (стихи для моей беременной жены). В Соединенных Штатах топ поисковых запросов состоит из следующих фраз: «моя жена беременна – и что теперь?» и «моя жена беременна – что мне делать?».
Но эта книга больше, чем подборка странных фактов или единичных исследований, хотя в ней будет приведено много подобной информации. Поскольку эта методика совершенно новая и только набирает обороты, я изложу здесь некоторые идеи о том, как это работает и что делает ее столь революционной. Я также допускаю, что есть пределы больших данных.
Эйфория в связи с потенциальной информационной революцией вряд ли уместна. Большинство тех, кто без ума от больших данных, просто фонтанирует идеями применения этого колоссального массива информации. Такая одержимость не нова. До Google, Amazon и Facebook, до появления самого понятия «большие данные» состоялась конференция в Далласе – «Большие и сложные массивы данных». Джерри Фридман{13}13
Я брал интервью у Джерри Фридмана по телефону 27 октября 2015 года.
[Закрыть], профессор статистики Стэнфордского университета и мой коллега по работе в Google, вспоминает, что на конференции 1977 года один уважаемый статистик заявил о том, что накопил невероятные, ошеломляющие пять гигабайт данных. Затем встал следующий выдающийся статистик и начал со слов: «Последний оратор говорил о гигабайтах. Это ничто. У меня – терабайты». Другими словами, акцент выступлений сместился на то, как много информации можно накопить, вместо того чтобы сделать упор на то, что с этими накопленными данными можно сделать или на какие вопросы можно найти ответы. «Тогда мне показалось забавным, – сказал Фридман, – что все надеялись поразить слушателей тем, насколько большой набор данных им удалось собрать. И это продолжается до сих пор».
Сегодня слишком много специалистов по анализу и обработке данных накопили большие массивы информации, но они дают нам слишком несущественные сведения, например, что баскетбольный клуб Knicks пользуется популярностью в Нью-Йорке. Слишком многие компании просто утонули в больших объемах данных. У них много терабайт информации, но мало своих идей. На мой взгляд, значение количества данных часто переоценивается. И это легко заметить, учитывая один небольшой, но очень существенный момент: чем важнее явление, тем меньше число наблюдений необходимо, чтобы его обнаружить. Вам достаточно один раз прикоснуться к горячей плите, чтобы понять, насколько это опасно. Но, возможно, вам придется тысячи раз пить кофе, чтобы понять, вызывает ли он у вас головную боль. Какой фактор серьезнее? Очевидно, что горячая плита, которая в силу интенсивности своего воздействия позволяет получить мгновенный результат при минимальном объеме данных.
Поэтому самые сообразительные крупные компании, занимающиеся обработкой больших данных, зачастую обрезают имеющиеся в их распоряжении массивы. В компании Google основные решения принимаются на основе лишь малой толики имеющихся в их распоряжении данных. Вам не всегда нужны тонны информации для того, чтобы прийти к важным выводам. Нужны правильно подобранные данные. Главный аргумент в пользу того, что поисковые запросы в Google представляют собой ценнейшую информацию, состоит не в том, что их очень много, а в том, что люди в них весьма откровенны. Мы лжем друзьям, любовникам и любовницам, врачам, опросам и самим себе. Но Google дает возможность обсудить личные проблемы, в том числе с весьма компрометирующей информацией, такие как брак без секса, психическое нездоровье, неуверенность, враждебность по отношению к чернокожим.
Самое главное при работе с большими данными – умение задавать правильные вопросы, чтобы получить важные выводы. Как нельзя, случайно наведя телескоп на ночное небо, обнаружить там Плутон, нельзя, просто загрузив кучу данных, открыть тайны человеческой природы. Вам необходимо будет выделить наиболее перспективные для поиска фразы, например для Индии – это запросы в Google, которые начинаются со слов «мой муж хочет…».
Эта книга показывает, как лучше использовать большие данные, в ней подробно объясняется, почему эти массивы информации имеют такое большое значение. И попутно вы узнаете много интересного из того, что я и другие люди уже открыли для себя с помощью этого метода, в том числе:
• Как много геев среди мужчин?
• Неужели реклама действительно работает?
• Почему Американский Фараон – лучшая скаковая лошадь?
• Ангажированы ли СМИ?
• Существуют ли оговорки по Фрейду?
• Кто мошенничает с налогами?
• Важно ли, в какой колледж пойти учиться?
• Можно ли выиграть на фондовом рынке?
• Где лучшее место, чтобы растить детей?
• Как истории разносятся по сети?
• О чем следует говорить на первом свидании, если вы хотите, чтобы было второе?
…И многое, многое другое.
Но прежде чем мы доберемся до этого, нужно обсудить базовый вопрос: зачем нам вообще все эти данные? И для этого я хочу представить вам мою бабушку.
Часть I
Данные, большие и малые
Папе и маме
Глава 1
Интуиция вас обманывает
Если вам 33 года от роду и у вас уже несколько Дней благодарения подряд прошли без свиданий, скорее всего, возникнет тема выбора брачного партнера. И у каждого на этот счет свое мнение.
«Сету нужна сумасшедшая девчонка под стать ему», – говорит моя сестра.
«Ты с ума сошла! Ему нужна нормальная девушка, чтобы уравновешивать его», – заявляет брат.
«Сет не сумасшедший», – реагирует мать.
«Ты спятила! Конечно, Сет – настоящий псих», – заявляет отец.
Внезапно в разговор тихо вступает моя застенчивая, говорящая тихим голосом бабушка. Громкие агрессивные нью-йоркские голоса затихают, и все взгляды сосредотачиваются на небольшой старушке с короткими золотистыми волосами, говорящей с легким восточно-европейским акцентом.
«Сет, тебе нужна хорошая девушка. Не слишком красивая. Очень умная. Умеющая ладить с людьми, социальная, чтобы вы могли работать вместе. С чувством юмора, потому что у тебя хорошее чувство юмора».
Почему совет этой пожилой женщины выслушивается в моей семье с таким вниманием и уважением? Моя 88-летняя бабушка видела на своем веку больше, чем все остальные, сидевшие за столом. Она повидала множество браков, одни из которых были счастливыми, другие нет. И на протяжении десятилетий она составляла список качеств, делающих взаимоотношения успешными. За столом в День благодарения бабушка была источником самого большого числа данных. Моя бабушка сама была большими данными.
В этой книге я хочу развеять мифы о науке о данных.
Нравится нам это или нет, но информация играет все более важную роль в жизни каждого из нас – и эта роль будет становиться все значительнее. Сейчас в газетах встречаются целые разделы, полностью посвященные данным. В компаниях есть группы, единственной задачей которых является анализ собранных данных. Инвесторы дают десятки миллионов долларов стартапам, если те могут собрать и сохранить большие объемы данных. Даже если вы никогда не узнаете, как работает регрессия, и не можете рассчитать доверительный интервал, вы наверняка столкнетесь с большим количеством данных – на страницах книг, которые читаете, во время деловых встреч, в которых принимаете участие, в сплетнях, которые доходят до ваших ушей, в курилке или возле кулера, когда пьете воду.
Многих людей беспокоит такое развитие событий. Они запуганы данными, легко теряются и могут совсем запутаться в мире чисел. Они думают, что количественное понимание мира предназначено для избранных левополушарных вундеркиндов, а не для них. Поэтому, едва столкнувшись с цифрами, готовы перевернуть страницу, закончить встречу или сменить тему разговора.
Я потратил десять лет на анализ различных данных, и за это время мне посчастливилось работать со многими из наиболее значимых в этой области людей. Один из самых важных уроков, которые я усвоил, заключается в том, что правильная работа с информацией не настолько сложна, как кажется многим. Лучшие примеры научной работы с данными на самом деле показывают, насколько она интуитивна{14}14
Я говорю о той части их анализа, которую хорошо знаю – о части, пытающейся объяснить и предсказать поведение человека. Я не говорю об искусственном интеллекте, который пытается, скажем, водить машину.
[Закрыть].
Что же делает науку о данных столь интуитивной? По своей сути эта дисциплина занимается выявлением и отбором правильных данных, а также прогнозированием того, как одна переменная повлияет на другую. Люди постоянно этим занимаются.
Просто подумайте, как бабушка давала мне совет по поводу моих отношений. Она использовала большую базу данных об отношениях, загружавшуюся в ее мозг в течение практически всей жизни, – истории, которые она слышала от членов своей семьи, от друзей и знакомых. Сначала она ограничила данные для анализа примерами отношений, в которых мужчина имел многие из тех качеств, которые есть и у меня – чувствительность, склонность к самоизоляции, чувство юмора. Затем сосредоточилась на ключевых качествах известных ей в этой выборке женщин: насколько они были добрыми, умными, красивыми. Потом сопоставила эти ключевые качества женщин с важнейшим элементом отношений: были ли они хорошими или нет. И, наконец, сообщила результат. Другими словами, она заметила закономерности и предсказала, как одна переменная будет влиять на другую. В этой ситуации бабушка выступила как специалист по работе с данными.
Вы тоже являетесь специалистом по работе с данными. Будучи ребенком, вы замечали: стоило начать плакать, как мама сразу обращала на вас внимание. Это тоже часть науки по работе с данными. Достигнув совершеннолетия, вы заметили, что, если слишком много ныть и жаловаться, люди начнут избегать общения с вами. Это тоже наука о данных. Когда люди меньше общаются с вами, у вас портится настроение, вы недовольны. Когда вы менее счастливы, вы менее дружелюбны, а когда вы менее дружелюбны, люди предпочитают держаться от вас еще дальше. Это наука о данных. Везде наука о данных. Повсюду наука о данных.
Поскольку она, таким образом, является практически естественным делом, я обнаружил, что в лучших вариантах анализа больших данных может разобраться практически любой умный человек. Если вы не можете понять, в чем суть исследования, проблема скорее всего не в вас, а в самом исследовании.
Вам нужны доказательства того, что научная работа с большими данными, как правило, является интуитивно понятной? Недавно я наткнулся на исследование, которое может оказаться одним из самых важных среди всех, проводившихся в течение последних нескольких лет. Оно также является одним из наиболее интуитивных, которые я когда-либо видел. Мне хочется, чтобы вы подумали не только о его важности, но и о том, насколько оно естественно и похоже на то, что делала моя бабушка.
Этот эксперимент проводила команда ученых из Колумбийского университета и из Microsoft. Целью был поиск симптомов, позволяющих предсказать зарождение у людей рака поджелудочной железы{15}15
John Paparrizos, Ryan W. White, and Eric Horvitz, «Screening for Pancreatic Adenocarcinoma Using Signals from Web Search Logs: Feasibility Study and Results» («Скрининг поджелудочной железы аденокарцинома, используя сигналы из журналов веб-поиск: технико-экономическое обоснование и результаты»), Journal of Oncology Practice (2016).
[Закрыть]. При этом заболевании только три процента больных проживают больше пяти лет, но раннее обнаружение болезни может удвоить шансы пациента.
Какой метод применили исследователи? Они использовали данные десятков тысяч анонимных пользователей Bing – поисковика Microsoft. При этом выбирали пользователей, у которых недавно был диагностирован рак поджелудочной железы – основываясь на безошибочном поисковом запросе, например: «Мне только что диагностировали рак поджелудочной железы» или «Мне сказали, что у меня рак поджелудочной железы, чего ожидать?»
Далее ученые искали запросы относительно возникающих симптомов. Они сравнили данные небольшого количества пользователей, сообщивших о своем диагнозе не сразу, с теми, кто этого вообще не сделал. Другими словами, попытались выявить, какие симптомы беспокоили тех, кто признался в своем диагнозе только через несколько недель или месяцев.
Результаты оказались просто поразительными. Признаками рака поджелудочной железы оказались боль в спине, а затем пожелтение кожи. Поисковый запрос только о боли в спине по большей части не относился к раку. Аналогично, поисковый запрос «Несварение желудка, а потом боль в животе» свидетельствует о раке поджелудочной железы, тогда как просто несварение желудка без болей не означает этого страшного диагноза. Исследователи смогли выявить от 5 до 15 % случаев практически без ложных срабатываний. Может быть, это не выглядит особо удачным результатом, но если у вас рак поджелудочной железы, даже 10 %-ная возможность удвоить шансы на выживание будет восприниматься как неожиданный подарок судьбы.
Неспециалисту изложенные в статье детали исследования будет трудно осмыслить в полной мере. Они включают в себя много технических терминов, таких как тест Холмогорова – Смирнова[6]6
Это способ определить, насколько точно созданная модель соответствует данным. – Прим. ред.
[Закрыть], смысл которого, признаться, я уже забыл.
Однако обратите внимание, насколько естественно и интуитивно понятно это замечательное исследование на самом фундаментальном уровне. Ученые рассмотрели широкий спектр медицинских случаев и попытались связать симптомы с конкретным заболеванием. А знаете, кто еще использует эту методику, пытаясь выяснить, болен человек или нет? Мужья и жены, отцы и матери, медсестры и врачи. Исходя из своего опыта и знаний, они пытаются соединить лихорадку, головную боль, насморк и боли в желудке с различными недугами. Другими словами, специалисты из Колумбийского университета и Microsoft провели новаторское исследование с использованием самой обычной и очевидной методики, издавна используемой для диагностики.
Но подождите. Давайте сбавим скорость. Если методика наилучшей научной обработки данных является естественной и интуитивно понятной так часто, как я утверждаю, это поднимает фундаментальный вопрос о ценности больших данных. Если люди являются прирожденными специалистами по научной обработке данных, если сама наука о данных является интуитивно понятной, зачем нужны компьютеры и программное обеспечение статистической обработки информации? Зачем нужны тесты Холмогорова – Смирнова? Разве мы не можем просто использовать свою интуицию и все? Разве мы не можем поступать так же, как это делает моя бабушка, как работают медсестры и врачи?
Подобное ощущение усилилось после выхода бестселлера Малкольма Гладуэлла «Blink» («Миг»), в котором воспевается магия человеческих инстинктов. Гладуэлл рассказывает истории о людях, которые, полагаясь исключительно на свою интуицию, могут сказать, является ли статуя поддельной, еще до удара – промажет ли теннисист по мячу или сколько клиент готов заплатить – до того, как тот откроет рот. Герои этой книги не высчитывают регрессии, они не определяют доверительные интервалы и не запускают тесты Холмогорова – Смирнова, но при этом, как правило, делают удивительные прогнозы. Многие люди подсознательно поддерживают мнение Гладуэлла об интуиции – они доверяют своему нутру и своим чувствам. Фанаты романа наверняка восторженно подчеркнут мудрость моей бабушки и ее способность давать советы по поводу человеческих отношений без помощи компьютеров. Поклонники «Blink», уверен, менее склонны восхищаться моими исследованиями или другими наработками, описанными в этой книге, поскольку здесь используются компьютеры. Если большие данные – компьютерные, а не информация от моей бабушки – революционны, следует доказать, что они способны на большее, чем наша интуиция, работающая без посторонней помощи. Хотя она, как отмечает Гладуэлл, зачастую и может выдавать просто потрясающие результаты.
Исследование, проведенное Колумбийским университетом и Microsoft, на примере строгих научных данных и компьютерных расчетов позволяет наглядно показать то, до чего интуиция никак не может дойти. Это также тот случай, когда важную роль играет объем информации. Иногда нашей интуиции просто не хватает опыта, на который она могла бы опереться. Маловероятно, что вы, ваши друзья или члены вашей семьи видели достаточно много случаев рака поджелудочной железы, чтобы уловить разницу между несварением желудка, сопровождаемым болью в животе, и обычным несварением желудка без болей. В какой-то момент массив поисковых запросов будет становиться все больше и больше, и в результате исследователи неизбежно найдут множество менее заметных закономерностей между симптомами и проявлениями этой болезни или других заболеваний, которые могут пропустить даже опытные врачи.
Более того, хотя наша интуиция, как правило, и может дать нам хорошее общее представление об устройстве мира, она нередко не дает точного результата.
Нам нужно больше данных, чтобы увеличить четкость изображения. Рассмотрим, например, влияние погоды на настроение. Вы, вероятно, полагаете, что люди будут чувствовать себя не слишком радостно скорее при –12 градусах, чем при +21. Да, это действительно так. Но вы можете и не догадываться, насколько велико влияние этого перепада температур. Я искал корреляции между поисковыми запросами в Google относительно депрессии и целого ряда факторов, включая экономические условия, уровень образования и посещение церкви. Зимний климат перевешивает все остальное{16}16
Это исследование обсуждается в Seth Stephens-Davidowitz, «Dr. Google Will See You Now» («Доктор Google теперь видит вас»), New York Times, 11 августа 2013, SR12.
[Закрыть]. В зимние месяцы в теплом климате (например, на Гавайях) поисковых запросов относительно депрессии на 40 % меньше, чем в районах с холодным климатом (таких, как Иллинойс). Но насколько значимо это влияние? Если у вас достаточно оптимистичное представление об эффективности антидепрессантов, вы с удивлением обнаружите: даже самые лучшие препараты снижают уровень депрессии всего лишь на 20 %. Насколько можно судить по цифрам, предоставляемым Google, переезд из Чикаго в Гонолулу будет как минимум вдвое эффективнее, чем любое лекарство от зимней тоски[7]7
Если начистоту: вскоре после завершения этого исследования я переехал из Калифорнии в Нью-Йорк. Использовать факты для понимания того, что следует сделать – легко. Сделать это на самом деле – довольно сложно. – Прим. авт.
[Закрыть].
Иногда наша интуиция – если не направлять ее с помощью тщательного компьютерного анализа – может повести нас в совершенно неверном направлении. Собственный жизненный опыт и устоявшиеся предрассудки могут ослепить нас. Действительно, даже бабушка, которая в состоянии использовать свой многолетний опыт, чтобы дать лучший совет в плане личных отношений, чем остальная часть семьи, все равно имеет некоторые сомнительные представления о причинах крепости отношений. Например, она часто подчеркивала важность наличия общих друзей, считая это ключевым фактором, предопределившим успешность ее брака. Она проводила самые приятные вечера со своим мужем, моим дедушкой, в их небольшом дворике в Квинсе, Нью-Йорк, сидя на раскладных стульях и сплетничая с соседями.
Тем не менее, хоть я и рискую сделать свою любимую бабушку козлом отпущения, научные данные свидетельствуют о том, что ее теория неверна. Команда ученых-компьютерщиков недавно проанализировала самый большой набор фактов о человеческих взаимоотношениях{17}17
Lars Backstrom and Jon Kleinberg. «Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook» («Романтические отношения и дисперсия социальных связей: сетевой анализ статуса отношений на Facebook»), in Proceedings of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing (2014).
[Закрыть] из когда-либо существовавших – Facebook. Они рассмотрели большое количество пар, которые в какой-то момент состояли «в отношениях». Некоторые из этих пар остались в них, другие перешли в статус «одиночка». Как выяснили ученые, наличие общей группы друзей является довольно существенным показателем того, что отношения НЕ продлятся долго. Вероятно, тусоваться каждый вечер со своим партнером и одной и той же небольшой группой людей не так уж здорово, а вот разные круги общения, возможно, помогают укрепить отношения.
Как видно, действуя только интуитивно и отказываясь от использования компьютеров, мы, порой, приходим к удивительным результатам. Но это может привести и к серьезным ошибкам. Бабушка, надо полагать, попалась в одну из когнитивных ловушек: иногда мы склонны преувеличивать значение собственного опыта. Если говорить языком специалистов по обработке и анализу данных, мы придаем намного большее значение фактам, взятым из одного источника – нас самих.
Бабушка была настолько сосредоточена на воспоминаниях о ее вечерних встречах с дедушкой и их друзьями, что не уделила достаточного внимания другим парам. Например, она упустила возможность рассмотреть ситуацию со своим деверем и его красоткой-женой, которая весь вечер болтала с небольшой постоянной группой друзей, но часто ссорилась с мужем. В конце концов они развелись. Бабушка забыла полностью рассмотреть историю моих родителей – ее дочери и зятя. Они нередко проводили вечера каждый сам по себе: мой отец играл в джаз-клубе или в мяч со своими друзьями, а мама отправлялась в ресторан или в театр со своими приятельницами, но это не мешало им счастливо прожить много лет в браке.
Полагаясь лишь на свою интуицию, мы также можем быть обмануты базовой человеческой склонностью к драматизации происходящего. Мы любим переоценивать важность всего, что может стать основой для незабываемого сюжета. Например, в ходе одного опроса выяснилось, что торнадо считается более распространенной причиной смерти{18}18
Kahneman, Thinking, Fast and Slow («Думай медленно, решай быстро»).
[Закрыть], чем астма. Хотя на самом деле от астмы умирает примерно в 70 раз больше людей{19}19
Между 1979 и 2010 годами, в среднем, 55,81 американцев погибли от ураганов и 4216,53 умерли от астмы. Посмотрите ежегодную статистику США погибших от ураганов в Национальной Метеорологической службе: http://www.spc.noaa.gov/climo/torn/fatalmap.php и тенденцию заболеваемости и смертности от астмы – в американской легочной ассоциации, эпидемиологии и статистики.
[Закрыть]. В смерти от астмы нет ничего впечатляющего, эти случаи не попадают в новости. А вот смерти от торнадо попадают.
Другими словами, полагаясь только на услышанное или на личный опыт, мы часто неправильно судим об устройстве мира. Несмотря на то, что методология правильной работы с фактами так же интуитивна, ее результаты обычно являются парадоксальными. Наука о данных использует естественное и интуитивное человеческое свойство – способность увидеть комбинации и связи и вдохнуть в них смысл, – и наполняет его силой, демонстрируя нам, что мир устроен совершенно не так, как мы думали. Именно это и произошло, когда я исследовал прогностические показатели успешных выступлений в баскетболе.
В детстве у меня была одна, только одна мечта. Я хотел вырасти и стать экономистом и специалистом по обработке и анализу данных. Нет, я, конечно, шучу. Я отчаянно хотел стать профессиональным баскетболистом, чтобы пойти по стопам своего кумира Патрика Юинга{20}20
Мое любимое видео Юинга «Patrick Ewing’s Top 10 Career Plays» («10 лучших игр за карьеру Патрика Юинга»), на Ютуб, размещено 18 сентября 2015 года, https://www.youtube.com/watch?v=Y29gMuYymv8; и «Patrick Ewing Knicks Tribute» видео на Ютуб, опубликовано 12 мая 2006 года, https://www.youtube.com/watch?v=8T2l5Emzu-I.
[Закрыть], лучшего центрового «Нью-Йорк Никс» всех времен.
Иногда мне кажется, что внутри каждого ученого, занимающегося сбором, изучением и анализом данных, сидит ребенок, пытающийся выяснить, почему его детские мечты не сбываются. Поэтому неудивительно, что в последнее время я внимательно изучал показатели, необходимые для попадания в НБА. Результаты исследования оказались неожиданными. На самом деле они лишний раз продемонстрировали, как серьезная наука о данных может изменить ваше представление о мире и насколько нелогичными могут оказаться цифры.
Я рассмотрел следующий вопрос: у кого больше шансов добиться успеха в НБА – у бедняков или у представителей среднего класса?
Большинство людей полагает, что у первых. Житейская мудрость гласит: те, кто рос в трудных условиях, возможно, родился у одинокой матери-подростка, обретают драйв, необходимый для достижения максимального успеха в этом конкурентном виде спорта.
Такую точку зрения в интервью «Спортс иллюстрейтед» высказал Уильям Эллерби, школьный тренер по баскетболу в Филадельфии. «Дети из пригородов, как правило, играют для своего удовольствия, – сказал он. – Для городских же детей игра в баскетбол – вопрос жизни и смерти»{21}21
S. L. Price, «Whatever Happened to the White Athlete?» («Что случилось с белым спортсменом?»), Sports Illustrated, 8 Декабря 1997 года.
[Закрыть]. Я, увы, был воспитан родителями, счастливо жившими в пригороде Нью-Джерси и состоявшими в браке. Леброн Джеймс, лучший игрок своего поколения, родился в бедной семье у 16-летней матери-одиночки в Акроне, Огайо.
Естественно, по результатам проведенного мной интернет-опроса{22}22
Этот опрос потребителей Googlee я провел 22 октября 2013 года. Я спросил: «Где, по вашему мнению, родились большинство игроков НБА?» Были два варианта ответов: «бедные кварталы» и «кварталы среднего класса»; 59,7 % опрошенных выбрали «бедный район».
[Закрыть], я предположил, что большинство американцев думают так же, как тренер Эллерби и я, – что большинство игроков НБА растут в бедности.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?