Электронная библиотека » Коллектив авторов » » онлайн чтение - страница 1


  • Текст добавлен: 7 ноября 2023, 16:05


Автор книги: Коллектив авторов


Жанр: Компьютеры: прочее, Компьютеры


Возрастные ограничения: +18

сообщить о неприемлемом содержимом

Текущая страница: 1 (всего у книги 2 страниц) [доступный отрывок для чтения: 1 страниц]

Шрифт:
- 100% +

Коллектив авторов
Саммари книги «Все лгут. Поисковики, Big Data и Интернет знают о вас все»

Сет Стивенс-Давидовиц пришел к изучению больших данных, исследуя расизм в современном обществе для публикации статей в New York Times. Впоследствии круг его интересов расширился, и он обнаружил, что большие данные, которыми полон Интернет, могут дать совершенно неожиданную картину в самых разных сферах, о чем нечего было и мечтать двадцать лет назад. Тогда источниками данных служили социологические опросы, анкетирование, интервьюирование и прочие методы фиксации общественного мнения.

Сначала Стивенс-Давидовиц изучал запросы пользователей Google. Затем он начал изучать обращение к Википедии, профили соцсетей и даже порнографические сайты. Помимо этого, он интервьюировал ученых, журналистов и предпринимателей, питающих такой же интерес к изучению больших данных.


Автор пришел к выводу, что наши поисковые запросы говорят о нас намного больше, чем мы можем представить. То, как мы ищем цитаты, вещи, анекдоты, людей, книги или фильмы, рассказывают о наших тайных желаниях и предпочтениях, о которых мы часто не решаемся говорить вслух ни с кем – кроме Google. Набирая в поисковой строке «Мой отец меня бьет» или «Я пью», мы признаемся ему в том, чего не хотели бы открыть никому. Из этих запросов, по мнению автора, и складываются настоящие большие данные.


Все это прекрасно, но, казалось бы, причем тут ложь? Для сравнения Стивенс-Давидовиц приводит данные опроса о сексуальной жизни. Женщины говорят, что занимаются сексом примерно 55 раз в год. Исходя из данных о количестве защищённых половых контактов ученые вычислили, что они используют 1,1 млрд презервативов в год. Мужчины утверждают, что за год используют в среднем 1,6 млрд презервативов. Между тем цифры должны быть одинаковыми, так кто из них говорит правду? Информационно-измерительная компания Nielsen, отслеживающая потребительское поведение, фиксирует, что за год продается чуть меньше 600 млн презервативов. Так что лгут и мужчины, и женщины, сильно преувеличивая присутствие секса в своей жизни.


В толерантной и политкорректной Америке, как предполагают многие аналитики, давно покончено с расизмом. Но изучение запросов в Google дает другую картину. Стивенс-Давидовиц понял это, когда набрал в поисковой строке слово «ниггер», оскорбительное и неприемлемое в личном общении. Он ожидал, что объем поиска будет совсем небольшим. К своему удивлению, он обнаружил, что запрос делается настолько же часто, как слова «мигрень» или «экономист». Ищут анекдоты про афроамериканцев, но доля таких запросов небольшая. Другие набирают «тупые ниггеры» или «Я ненавижу ниггеров». Миллионы этих расистских запросов повторяются каждый год.

Когда Обама стал президентом США, СМИ комментировали это как историческое событие и восхваляли первого чернокожего президента. Но при этом примерно один из ста поисковых запросов включал «Обама Ку-клукс-клан» или «Обама ниггер». В ночь выборов регистрация на белом националистическом сайте, популярном в США, в десять раз превысила норму. В некоторых штатах было больше запросов «негр-президент», чем «первый черный президент».


Поиск в Google дал неожиданную карту расизма, распределенного по штатам. Традиционно расистские настроения были сильны в южных штатах, еще со времен войны Севера и Юга, противников и сторонников рабства. Поисковые запросы выявили, что демократический современный Север почти не отличается от консервативного республиканского Юга. Именно это обстоятельство, как считает автор, помогло политическому успеху Трампа, утверждавшего в Твиттере, что черные американцы ответственны за большинство убийств белых американцев.


Так поиск в Google выявил то, что пропустило большинство политических экспертов, ученых и журналистов, не сомневавшихся в расовой толерантности общества: на самом деле оно вовсе не так толерантно, как говорят данные социологических опросов. Расизм и ксенофобия просто глубоко спрятаны. И когда Трамп открыто заговорил об этом, голоса были отданы ему.


Не будь больших данных, это вряд ли удалось бы установить, считает Стивенс-Давидовиц. Большими данными полон Google – в среднем в день люди генерируют в Интернете 2,5 миллиона триллионов байт данных. Такие цифры дают действительно отчетливую картину общества. Основная цель книги, как утверждает автор, – доказать, что с помощью больших данных можно найти такие иглы в таких стогах сена, о которых раньше нечего было и мечтать. Это даст нам новый взгляд на человеческое поведение и психологию.


Ключевые идеи книги.

Идея № 1. Большие данные помогают прогнозировать влияние одной переменной на другую

Многих людей пугают цифры, они чувствуют себя беспомощными в мире чисел, считая, что понимать их могут только математические гении. Но, как утверждает автор, большие данные намного проще, чем думают люди. В пример он приводит подбор ему невесты на семейном совете. У каждого члена семьи было свое мнение. Сестра говорила, что ему нужна такая же сумасшедшая девушка, как он сам. Брат – что девушка, наоборот, должна его уравновешивать и быть спокойной и покладистой. Мать и отец спорили на тему, сумасшедший ли их сын. И тут в разговор вступила бабушка, которой было под 90 лет. Она сказала, что лучшая кандидатура – не слишком красивая, но очень умная девушка, коммуникабельная, с чувством юмора – потому что у потенциального жениха тоже с чувством юмора все в порядке. И все спорщики затихли. Бабушка в таких вопросах – лицо авторитетное: никто в семье не видел такого количества удачных и неудачных браков. За десятилетия у нее сложился алгоритм успешных отношений. Другими словами, она имеет доступ к большому количеству данных.


В память бабушки загружены данные почти за столетие – это истории, которые она наблюдала лично или слышала от друзей, знакомых и родственников. Она выбрала из этих данных образец мужчины, похожего на автора книги, и определила ключевые качества женщины, с которой они составили бы гармоничную пару. Или, переходя на язык математики, она в течение жизни подмечала многие закономерности и может предсказать, как одна переменная влияет на другую. В этом смысле бабушка – специалист по данным.


То же самое можно сказать о любом человеке. Ребенок подмечает, что его мама проявляет к нему больше внимания, когда он плачет. Так он впервые приобщается к науке о данных. Взрослый человек замечает, что с ним меньше общаются, если он часто жалуется – это тоже пример науки о данных, то есть о том, как одна переменная влияет на другую, о причинно-следственной связи.


Так что не стоит бояться цифр и слов «большие данные», советует автор. На самом деле все мы так или иначе имеем с ними дело.

Идея № 2. Мы склонны преувеличивать значение нашего собственного опыта при анализе данных

Бабушка Стивенса-Давидовица не была полностью беспристрастным и объективным аналитиком – ни один человек, основываясь на собственном опыте, не может давать стопроцентно верные прогнозы. Так, она устроила брак сводного брата, который вскоре распался. Она считала, что брак родителей Стивенса-Давидовица непрочный из-за несходства интересов, но они до сих пор счастливы вместе. Вместе с опытом человек в пожилом возрасте смотрит на некоторые вещи так, как это было принято в далеком прошлом. Бабушка, в частности, считала, что для успешного брака необходимо наличие общих друзей – ведь ее собственная жизнь с мужем была именно такой. Но данные исследования ученых-программистов показали, что большое количество общих друзей, например в соцсетях, не продлевают отношения, а скорее наоборот.


Существует множество общественных стереотипов, которые принимаются за истину многими из нас. Так, в США принято считать, что большинство игроков NBA родились и выросли в бедных семьях, в тяжелых условиях, и стремление вырваться из нищеты и убожества привело их в высшую спортивную лигу. Спорт для таких детей – не развлечение, а вопрос жизни и смерти. И действительно, тому есть подтверждения – например, знаменитый Леброн Джеймс родился в бедной семье у малолетней матери-одиночки. Таково расхожее мнение. Что говорят по этому поводу большие данные, а не несколько ярких примеров?


Чтобы выяснить этот вопрос, Стивенс-Давидовиц использовал данные баскетбольных сетевых ресурсов, переписи населения и другие. Ведь лучший способ получить правильный ответ на вопрос – это объединить все доступные данные. Он выяснил, где родился каждый игрок из его выборки. Затем он исследовал количество белых и черных мужчин, родившихся в 1980-х годах, затем – сколько из них попали в Высшую баскетбольную лигу. Затем сравнил средний доход на семью в округе, где они родились, и демографию, которая показала, что афроамериканцы в сорок раз чаще попадают в Высшую лигу, чем белые игроки. В итоге у него получилось, что у начинающего спортсмена гораздо больше шансов оказаться в Высшей лиге, если он родился в богатом округе, в хорошей семье со стабильным высоким доходом. Чем выше социально-экономический статус семьи, тем больше у игрока шансов попасть в NBA.


Не полагайтесь на общественные стереотипы или житейскую мудрость, если хотите получить точный ответ на вопрос, советует автор. Лучше используйте для этого максимальное количество данных.

Идея № 3. Для эффективного использования новых данных лучше всего действовать в той сфере, где старые методы не работают

В пример этого утверждения Стивенс-Давидовиц приводит Джеффа Седера, главу фирмы, оценивающей скаковые данные лошадей. Седер закончил Гарвард, был юристом и имел научную степень. Он успешно работал аналитиком в Citigroup, пока не пришел к выводу, что занимается не своим делом. Он всегда любил лошадей и хотел быть ближе к природе. Уволившись, он переехал в Пенсильванию и посвятил себя прогнозированию успеха скаковых лошадей. Предсказать успех той или иной лошади было крайне затруднительно. Данных было мало. Примерно тысяча лошадей добирается до участия в самых престижных скачках. Примерно пять из них приносят владельцам деньги и призы. Остальные 995 недостаточно быстрые, не выдерживают нагрузки или не желают скакать – бывают и такие. Как владельцу подобрать правильную лошадь на специальном аукционе?


Раньше люди верили, что самый верный показатель быстрого скакуна – хорошая родословная, предки с множеством призов. Чем глубже она уходит, тем лучше можно предсказать успех лошади на скачках. Однако, как выяснил Седер, хорошая родословная – только часть успеха. В скачке лучших скакунов у всех участников хорошие родословные, но побеждает только одна из них. Значит, эти данные неточные, и на них опираться нельзя. Между тем агенты по продажам лошадей практически не используют другие данные, кроме родословной, возраста, визуального осмотра коня и наблюдения за его аллюром. Но Седер обнаружил, что эти переменные, включая возраст, ненадежны: бывает, что лошадь сравнительно немолодая бегает лучше других на протяжении пяти лет, тогда как другая, успешно проскакав один-два года, уже не побеждает в скачках. Так что Седер отмел традиционные методы и занялся сбором данных. Он измерял тела лошадей и сопоставлял эти данные с поведением на скачках. Это было задолго до изобретения Интернета.


Многие годы эти наблюдения не позволяли прийти к каким-либо выводам. Он брал у лошадей анализы кала и крови, замерял ноздри, длину ног и ширину копыт. Но ни одна из этих переменных не коррелировалась с победой на скачках. И тогда он решил исследовать внутренние органы. Он построил собственный аппарат УЗИ для лошадей. С его помощью он выяснил, что единственное, с чем коррелирует успех лошадей, – это размер левого желудочка сердца и размер селезенки. Чем они больше, тем ближе лошадь к победе. Не должны быть маленькими и все остальные органы. В качестве дополнительных данных был определенный аллюр, который почти никогда не приводил к успеху на скачках, и особенное похрипывание лошади после километрового бега.


Этот пример, по мнению Стивенса-Давидовица, показывает, как важно собрать максимум данных, особенно в сфере, где это не делалось никогда, а за переменные брались вещи несущественные.

Идея № 4. Делая прогнозы на основании больших данных, не стоит искать объяснений, почему ваши модели работают. Главное – что они работают

Седер рассказывал автору, что не может объяснить во всех подробностях, почему успех лошади зависит от размера левого желудочка и селезенки. Он предоставил заниматься этой тайной лошадиным кардиологам и гематологам. Его делом было прогнозировать бизнес, а не объяснять его. Если вы хотите прогнозировать, советует Стивенс-Давидовиц, вы просто должны знать, что ваша модель работает, и не задаваться вопросом, почему это происходит.


Компания Walmart изучает данные продаж во всех своих магазинах. Когда на юго-востоке США в 2004 году разразился ураган «Френсис», еще до его начала, после прогноза синоптиков, аналитики Walmart предположили, что после бури покупательские привычки людей могут измениться. Они изучали продажи за многие годы в аналогичных случаях. И пришли к выводу, что после предыдущих ураганов резко возрастал спрос на клубничное печенье «Поп-тартс». За несколько дней до урагана и после него этот продукт продается в 7 раз быстрее, чем обычно. Поэтому на всякий случай у них всегда есть грузовики, загруженные «Поп-тартсом», готовые ехать туда, где должен начаться ураган, на случай, если магазинам Walmart не хватит собственных запасов.


Это не поддается логическому объяснению, да оно и неважно, считает Стивенс-Давидовиц. Пусть ученые выясняют связь между ураганом и печеньями с клубничным джемом. А пока они этим занимаются, Walmart держит наготове коробки с «Поп-тартс».


Похожая история произошла с Ашенфелтером, экономистом из Принстона. Он был большим любителем хороших французских вин и часто покупал красные вина из Бордо. Цена всегда была высокой, иногда даже выше обычной, тогда как качество вина по завышенной цене было хуже, как считал Ашенфелтер. Ему частенько приходилось разочаровываться. Он долго искал, в чем причина, пока друг не посоветовал ему обратить внимание на погоду во время созревания винограда.


Ашенфелтер скачал данные о погоде в регионе Бордо за 30 лет и цены на аукционе вин. В результате он пришел к выводу, что качество вина действительно объясняется погодой во время вегетации лозы. Он создал формулу, по которой всего сантиметр зимних дождей добавляет 0,1 цента к цене бутылки красного вина. Если в зимний период выпадало 1000 сантиметров дополнительных осадков, значит, вино стоило дороже на доллар и было хуже обычного. Теперь Ашенфелтер покупает вино только такого года, когда осадки не превышали норму. Сам он понятия не имеет, почему его формула работает, но с большими данными не поспоришь.

Идея № 5. Во время традиционных опросов и общения в социальных сетях все врут

В Интернете находятся просто россыпи больших данных, с помощью которых можно гораздо быстрее установить истину. Они-то и помогают исследователю понять, что все врут.


Люди врут о том, сколько выпили по дороге домой, как часто ходят в тренажерный зал, сколько стоит их новая обувь. Они сказываются больными, когда они здоровы, счастливыми, когда несчастны, и любящими, когда равнодушны. Мы все, считает Стивенс-Давидовиц, врем боссам, детям, врачам, супругам и самим себе.


Соблазн соврать слишком велик, особенно во время опросов. Хотя большинство из них анонимны, мы все равно хотим хорошо выглядеть даже в собственных глазах. Это называется социальной желательностью.


В университете Мэриленда проводилось обзорное исследование, когда ответы на анонимные опросы были сопоставлены с данными официальных отчетов. Люди все время давали неверную информацию, выставляющую их в наилучшем свете. Меньше чем два процента опрашиваемых признались, что закончили обучение с оценками ниже среднего (в действительности их было 11 процентов). 44 процента сказали, что делали пожертвования своему любимому университету, когда как на самом деле их было всего 22 процента.


Эта ложь во время опросов способствовала тому, что победа Дональда Трампа на выборах стала полной неожиданностью для многих: ведь по всем социологическим данным выходило, что его поддерживает не так уж много избирателей, и для победы их количество уж точно недостаточно. Кто-то затруднился ответить на вопрос об отношении к Трампу, а кто-то просто солгал, стремясь хорошо выглядеть в глазах демократического общества.


Роджер Туранго, эксперт по социальной желательности, утверждает, что люди постоянно обманывают даже во время анонимных вопросов. Это происходит потому, что и в реальной жизни мы обманываем даже себя и не отказываемся от своей привычки, отвечая на вопросы. Кому нравится признаваться себе в собственной слабости или глупости?


Люди постоянно врут о том, что их способности или профессионализм выше среднего. Больше 40 процентов инженеров одной компании заявили, что они входят в пятерку лучших. 90 процентов университетских профессоров говорят, что их уровень намного выше среднего. 25 процентов школьников утверждают, что входят в 1 процент людей, умеющих ладить с окружающими. Этот самообман влияет и на результаты социологических опросов.


Другой фактор, заставляющий нас лгать, – стремление произвести хорошее впечатление на незнакомца, который занимается опросом. Никому не хочется показывать незнакомому человеку свои слабые места или свои грешки. Поэтому при такой форме опроса ответы на деликатные темы всегда будут искаженными. Как считает Стивенс-Давидовиц, у людей просто нет стимула говорить правду. В одиночестве люди более правдивы, чем при личном опросе. Чем более обезличены условия опроса, тем больше в нем будет правдивых ответов. Поэтому интернет-опросы лучше, чем телефонные или личные.


Это касается и социальных сетей. В этом случае у людей тоже нет стимула говорить правду. Есть противоположный – выглядеть в глазах других максимально хорошо. Страница в соцсети часто не анонимная – у вас есть друзья, вы рассказываете им о себе, и виртуальным, и настоящим. Мы показываем им не настоящих себя, а окультуренных. Мы хвастаемся им, что все в нашей жизни хорошо, что мы счастливы в отношениях и прекрасно проводим время, хотя это может быть совсем не так.

Идея № 6. Правду о человеческом поведении, наших истинных чувствах и желаниях могут открыть наши запросы в Google

Когда люди врут о вещах достаточно абстрактных, вроде размера или регулярности своих благотворительных пожертвований, то правду установить довольно легко, обратившись в сами благотворительные организации. Но некоторые данные проверить невозможно. Когда мы пытаемся узнать о чьих-то чувствах и желаниях, то, во-первых, вряд ли получим правдивый ответ, а во-вторых, его в любом случае невозможно проверить, – нет другого источника информации, кроме самого отвечающего. До некоторых пор это было так, но теперь все изменилось – запросы человека в Google говорят о нем практически все. Поисковой системе люди могут признаться в чем угодно, ничего не боясь. И стимул присутствует: хочется почитать расистские шутки или анекдоты – достаточно просто набрать запрос, не боясь общественного осуждения. Кому-то кажется, что у него депрессия, но он боится говорить об этом с окружающими. Зато можно спокойно попросить Google выдать ссылки с симптомами и методами лечения.


Сексуально неудовлетворенные люди задают в поиске «порно», и этот запрос происходит чаще, чем запрос «погода». Тогда как при социологических опросах только 25 % мужчин и 8 % женщин признались, что смотрят порнографию. Кому-то нужно принять решение, и он боится сделать неправильный выбор. Например, кто-то хочет иметь детей, но боится. Запросив Google и изучив разностороннюю информацию, он может лучше понять, стоит ему иметь детей или нет. Во многих вопросах (запросах) Google выступает в роли своеобразного исповедника, которому можно сказать все.

Идея № 7. Запросы в поисковых системах позволяют увидеть истинную картину общественной нетерпимости и предвзятости

В 2015 году в Сан-Бернардино произошел массовый расстрел, жертвами которого стали 14 человек. Двое мужчин ворвались в комнату, где сидели коллеги одного из них, и открыли по ним огонь из пистолетов и винтовок. Вскоре в СМИ появилось арабское имя одного из стрелков и упоминание, что он мусульманин. В Google сразу произошёл огромный всплеск запросов со словом «мусульмане» или «убивать мусульман». С той же частотой искали «рецепт мартини» и «симптомы мигрени». В целом в первые дни после расстрела запросы на эту тему составили примерно половину от общего числа запросов о мусульманах, тогда как незадолго до трагедии их было всего 20 процентов.


Чтобы успокоить общество, к нему обратился президент Обама. Он уверял, что правительство может остановить терроризм и призывал не поддаваться опасной вспышке исламофобии. Газеты «Лос-Анджелес Таймс» и «Нью-Йорк Таймс» и многие сайты восхваляли речь, которая призывала к толерантности. Но запросы в Google говорили другое. Во время его речи на 60 процентов возросли запросы «убивать мусульман», «закрыть границы для сирийских беженцев», а запросы, как помочь сирийским беженцам, наоборот, сократились на 35 процентов.


Казалось бы, президент говорил правильные слова, что отмечали традиционные СМИ. Но Интернет показал, что эта речь еще больше распалила страсти, то есть имела не ожидаемый, а противоположный эффект. Стивенс-Давидовиц уверен, что в таких вопросах (и многих других) надо обязательно сверяться с большими данными из Интернета, чтобы удостовериться в правильности своих действий.


Исследования автора показали, что запросы на анекдоты про «ниггеров» возрастают тогда, когда в новостях часто упоминаются афроамериканцы, будь то трагические новости об урагане «Катрина», уничтожившем множество домов в Новом Орлеане, где живет большое количество чернокожего населения, или годовщина Мартина Лютера Кинга. При этом очень немногие белые граждане Америки готовы открыто признаться в предубежденности на расовой почве.


Стивенс-Давидовиц при помощи изучения запросов Google открыл еще одну странную предубежденность, о которой практически никто не догадывался, – предубежденность родителей в отношении дочерей. Родители в два раза чаще запрашивают Google: «Талантлив ли мой двухлетний сын?», чем задают тот же вопрос в отношении дочери. И это притом, что, как показали исследования, девочки часто опережают мальчиков в одаренности, у них богаче лексикон, они чаще участвуют в программах для одаренных детей. Но почему-то родители чаще интересуются одаренностью сыновей и явно предполагают в них эту одаренность.


Что спрашивают про девочек? Страдает ли дочь лишним весом, как заставить ее похудеть, как развить в ней покладистость. И это притом, что по медицинской статистике лишний вес имеют 28 % девочек и 35 % мальчиков. Но до веса мальчиков родителям мало дела. Гендерные предрассудки в отношении дочерей не имеют отношения к реальности. Большие данные помогают их выявить и показывают, что предубеждение против девушек широко распространено и глубоко укоренилось.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> 1
  • 3 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации