Читать книгу "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"

Текст добавлен: 24 июня 2021, 11:00

Автор книги: Дэвид Хэнд

Жанр: Экономика, Бизнес-Книги

Возрастные ограничения: 12+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 4 (всего у книги 23 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

Ошибка выжившего является потенциальной проблемой для всех ситуаций, когда со временем что-то меняется. В мире стартапов мы больше слышим об успехах, чем о неудачах, хотя большинство таких компаний терпит именно неудачу. Одни исследователи считают, что их доля составляет всего 50 %, другие – что 99 %. Конечно, многое зависит от того, какой период времени вы рассматриваете (год или 50 лет?) и что понимаете под «неудачей». Возьмем, к примеру, социальную сеть Bebo. Запущенная в 2005 г., она была одной из самых популярных соцсетей в Великобритании с почти 11 млн пользователей. В 2008 г. Bebo была куплена AOL за $850 млн. Так вот, на трехлетнем горизонте компания была невероятно успешной. Но затем число пользователей начало сокращаться, в том числе из-за того, что они переходили в Facebook, и в 2010 г. AOL продала Bebo Criterion Capital Partners, после чего компьютерный сбой окончательно подорвал ее репутацию, и в 2013 г. компания подала заявление о банкротстве в соответствии со статьей 11 Закона о банкротстве США. Позже, в 2013 г. ее основатели Майкл и Сочи Берч выкупили компанию за $1 млн. Так что это, успех или неудача? А как насчет Lehman Brothers? Эта фирма, основанная в 1850 г., была четвертым по величине инвестиционным банком в Соединенных Штатах, пока не объявила о банкротстве в 2008 г. Как и Bebo, компания потерпела крах, хотя и просуществовала намного дольше. Но была ли ее история историей успеха или же провалом?

В мире стартапов люди по естественным причинам хотят слышать истории успехов, а не провалов – ведь они стремятся подражать именно успехам. Но на самом деле им требуются другие данные, остающиеся для них темными. Предприниматели должны искать такие характеристики, которые отличают успехи от неудач, а не просто те, которые сопровождают успех, поскольку они точно так же могут быть связаны и с ошибками в действиях. Более того, даже если характеристики связаны с успехами больше, чем с неудачами, нет никакой гарантии, что эта связь причинно-следственная.

На сайте веб-комиксов xkcd.com есть забавный комикс на тему ошибки выжившего[20]20
https://xkcd.com/1827/.

[Закрыть]. Персонаж советует нам никогда не прекращать покупать лотерейные билеты, рассказывая, как он проигрывал и терял деньги раз за разом, но все равно продолжал покупать билеты – даже устроился на дополнительную работу, чтобы больше зарабатывать и покупать их еще больше. И вот в конце концов он преуспел (если слово «преуспел» тут уместно). При этом за кадром громоздятся горы трупов азартных игроков, которые точно так же вкладывались в лотерейные билеты, но умерли, ничего не выиграв.

В целом административные данные имеют огромный потенциал, если мы принимаем во внимание риски, связанные с темными данными. Однако есть один аспект, который не выглядит столь радужным и вызывает озабоченность.

С точки зрения отдельного человека, выхлопные данные, хранящиеся в базах административных данных, являются не чем иным, как тенями данных. По сути это цифровые следы, которые мы оставляем каждый раз, отправляя электронные письма, текстовые сообщения, твиты, публикуя комментарии на YouTube, расплачиваясь кредитными картами, используя проездные, совершая телефонные звонки, обновляя приложения для социальных сетей, включая компьютер или iPad, получая наличные в банкомате, проезжая мимо камеры распознавания номерного знака – список можно продолжать бесконечно, причем порой следы наших действий считываются весьма неожиданными способами. Хотя такие данные действительно могут использоваться в интересах общества, но правдой является и то, что они неизбежно раскрывают большое количество личной информации о каждом из нас: наши симпатии и антипатии, наши привычки и поведение. Цифровая тень может быть использована для нашей выгоды – на ее основе происходит отбор действительно интересных нам товаров и событий, она помогает в путешествиях и в целом облегчает жизнь. Но эта тень может быть использована и для манипулирования нашим поведением. Авторитарные режимы получают возможность контролировать нас, если имеют доступ к подробностям нашей жизни. В некотором смысле это неизбежно: недостатком предоставления информации для получения ответной помощи является… само предоставление информации.

На фоне растущей озабоченности этой проблемой появляются сервисы, которые минимизируют нашу цифровую тень. Они как бы гасят свет, погружая данные во тьму. Основные шаги в этом направлении включают в себя деактивацию всех учетных записей социальных сетей, удаление старых учетных записей почтовых сервисов, удаление результатов поиска, использование ложной информации для учетных записей, которые мы не можем удалить (например, фиктивные даты рождения или инициалы), удаление из списков рассылок и оповещений и пр. Понятно, что такое сокрытие данных негативно сказывается на потенциальных выгодах. Государство, например, может определить, предоставлять или не предоставлять человеку налоговые льготы, только если располагает данными о его доходах и налоговых платежах.

От нескольких ко многим

Сбор данных обо всех интересующих нас людях или объектах, например административных данных, генерируемых во время похода в супермаркеты, – это действенный метод получения информации, способной улучшить понимание ситуации и повысить качество принимаемых решений. Но такие данные не всегда могут пролить свет на волнующие нас вопросы. Простейшим примером являются ситуации, в которых соответствующие наборы административных данных просто не могут быть собраны автоматически. Одно из решений – использовать максимально близкий к искомому набор данных, но это имеет свои риски. Вторым решением будет разовый сбор данных, например в масштабе всего населения, для получения ответа на конкретный вопрос. По сути, это перепись. Но, к сожалению, перепись – дорогостоящий и небыстрый процесс, и нет смысла тратить огромные суммы на то, чтобы получить идеальный ответ уже после того, как он перестал быть актуальным.

Третья стратегия заключается в проведении опросов.

Опросы – это один из основных инструментов, используемых для изучения современного общества. Их особенность и преимущество состоит в том, что они позволяют понять происходящее в той или иной группе людей, не спрашивая каждого члена этой группы. Опросы основаны на таком мощном статистическом феномене, как закон больших чисел, который гласит, что среднее значение произвольной выборки из некоей генеральной совокупности с высокой вероятностью будет очень близко к реальному среднему значению совокупности, если размер выборки достаточно велик.

Предположим, мы хотим определить средний возраст людей в стране. Это значимая информация, позволяющая понять, например, достаточно ли в стране людей трудоспособного возраста (и будет ли их достаточно по мере старения населения), чтобы собранные с них налоги могли обеспечить пенсию старшему поколению. Важность и потенциальное влияние среднего возраста становится очевидным, если взглянуть на два государства, занимающих крайние противоположные позиции на этой шкале: западноафриканский Нигер, где 40 % населения не достигло возраста 15 лет, и Японию, в которой всего 13 % населения приходится на эту возрастную группу.

Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили, что существует очевидный риск возникновения темных данных, поскольку мы не узнаем возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что узнать это вполне возможно при условии репрезентативности выборки. Более того, математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна быть огромной – тысячи человек для средних размеров страны может оказаться достаточно. Согласитесь, это совсем не то, что опрашивать миллионы.

Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого – начать с составления списка всех интересующих нас представителей населения (такой список называется рамкой выборки), затем случайным образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки часто создают на основе административных данных, например списков избирателей или результатов последней переписи.

Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным. Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не гарантирует того, что выборка свободна от негативного влияния темных данных (например, что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений поддается контролю. Это означает, что мы можем утверждать, например, следующее: «Почти для всех (то есть для 95 %) сформированных выборок среднее значение может отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер выборки, мы можем увеличить и уверенность с 95 %, скажем, до 99 %, и уменьшить диапазон отклонений на год или любую другую величину. А если вас беспокоит отсутствие абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним, что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).

Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором – один к миллиону.

К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.

Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого используется аббревиатура NA, что означает not available или «нет данных»). В таблице приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного обучения[21]21
Knowledge Extraction Based on Evolutionary Learning, http://sci2s.ugr.es/keel/dataset.php?cod=163, accessed 22 September 2019.

[Закрыть]. Данные были собраны из анкет, выданных посетителям торгового центра в районе залива Сан-Франциско. Цель исследования заключалась в построении модели прогнозирования доходов в зависимости от переменных. Вот эти переменные: A – пол, B – семейное положение, C – возраст, D – образование, E – род занятий, F – сколько лет проживает в Сан-Франциско, G – число работающих в семье, H – численность семьи, I – число членов семьи младше 18 лет, J – статус домохозяйства, K – тип жилой недвижимости, L – этническая группа, M – язык и, наконец, последняя переменная, которая должна была быть спрогнозирована, N – доход (на сайте дается более подробная информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице, но в 2117 из них есть отсутствующие значения – так же, как и в трех строках приведенного фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они отсутствуют, поскольку мы отчетливо видим, что в ячейках не хватает чисел.

Столбец таблицы, обозначенный буквой «М», показывает ответы на вопрос «На каком языке чаще всего говорят в вашем доме?». Есть три варианта ответов: 1 – на английском, 2 – на испанском и 3 – на любом другом языке. Поскольку только одна из этих категорий может быть верной для каждого домохозяйства, а вместе они включают в себя все возможные языки, то мы знаем, что для каждой строки существует только один из трех предложенных вариантов ответа. Но по какой-то причине два человека в нашей выборке просто не стали отвечать.

Иногда, впрочем, записи являются неполными по причине того, что подходящих значений просто нет – ответа не существует. Например, поле, в котором указывается возраст супруга респондента, должно остаться пустым, если респондент не состоит в браке. Это порождает интересный вопрос о том, как мы должны относиться к таким недостающим значениям. Ситуация явно отличается от того, если бы кто-то, состоящий в браке, просто не заполнил это поле. Но имеет ли это различие значение? Если два типа отсутствия ответа будут рассматриваться нами одинаково, приведет ли это к ошибочным выводам?

Запись с пробелами сразу показывает, что чего-то не хватает (DD-тип 1: данные, о которых мы знаем, что они отсутствуют). Однако, когда люди вообще отказываются отвечать на вопросы, мы имеем иной результат – DD-тип 4: самоотбор. Люди могут быть слишком заняты, могут воспринять опрос как вторжение в частную жизнь или просто не выходить на контакт (например, если их нет в городе на момент проведения исследования). Это тоже известные неизвестные в том смысле, что мы знаем, кто эти люди, поскольку они есть в списке выборки, а также знаем, что они могли бы дать ответы, если бы были готовы и имели возможность. Но, поскольку у нас нет их ответов, мы вынуждены находиться в неведении.

Один из ярких примеров такого рода проблем дают президентские выборы 1936 г. в США. На основе опросов популярный журнал The Literary Digest много раз успешно определял победителей выборов, и в 1936 г. он предсказал, что победит кандидат от республиканцев Альфред Лэндон, а голоса разделятся в соотношении 3∕2. Тем не менее Франклин Рузвельт, кандидат от демократов, одержал уверенную победу, набрав 523 из 531 голоса коллегии выборщиков, 62 % голосов избирателей и получив большинство в 46 из 48 штатов.

Результаты этих выборов и ошибочный прогноз The Literary Digest часто связывают с темными данными, полученными в ходе опроса. На этот счет есть разные теории, но все они сводятся к одной мысли: не стоило в качестве рамки выборки использовать телефонные справочники. В то время телефоны были чем-то вроде предметов роскоши и в основном принадлежали состоятельным людям, среди которых было больше сторонников республиканцев. Таким образом, в выборке была завышена доля людей, которые планировали голосовать против Рузвельта.

Подобно попытке оценить средний возраст населения страны на основе выборок, сделанных в ночных клубах или домах престарелых, это объяснение ошибочного прогноза предполагает, что причина появления темных данных кроется вовсе не в отказе людей отвечать на вопросы, а в неправильном определении первоначального списка респондентов.

Однако подробный анализ статистика Мориса Брайсона показывает, что этот упрощенческий подход является в корне неверным[22]22
M. C. Bryson, “The Literary Digest poll: Making of a statistical myth,” The American Statistician 30 (1976): 184-5.

[Закрыть]. С одной стороны, он недооценивает те меры, которые предпринимали опросчики The Literary Digest, чтобы обеспечить репрезентативность выборки потенциальных избирателей. Они хорошо понимали факторы, которые могли привести к искажению этой выборки. С другой стороны, хотя в то время лишь около 40 % домохозяев имели телефоны, эти же 40 % представляли наиболее активную часть избирателей. Сей факт означает, что, несмотря на возможность появления темных данных в масштабе всего населения, их влияние было куда менее серьезным, если рассматривать владельцев телефонов как долю голосующего населения, что, конечно, имеет значение для выборов. Значение, которое может оказаться решающим: на референдуме 2016 г. о том, следует ли Великобритании покинуть Евросоюз, проголосовало 43 % тех, кто до этого заявлял, что «не интересуется политикой», в то время как на всеобщих британских выборах 2015 г. проголосовало лишь 30 % таких людей. Тот, кто утверждает, что будет голосовать за Х, должен реально проголосовать за Х, чтобы его утверждение стало верным.

Что касается опроса избирателей на выборах Лэндон/Рузвельт, похоже, что популярная «телефонная» теория неверна. Тогда чем же объяснить провал опроса?

Ответ по-прежнему лежит в области темных данных, но данных другого типа – куда более знакомых и понятных нам, живущим в эпоху сетевых опросов. Дело в том, что, хотя было разослано 10 млн анкет, лишь около четверти тех, кто их получил, то есть около 2,3 млн человек, потрудились ответить. Более трех четвертей опрошенных просто проигнорировали анкеты – их политические взгляды стали темными данными. Последствия очевидны. Если республиканские избиратели были более заинтересованы в выборах, чем сторонники Рузвельта (а все указывает на то, что это именно так), то они с большей вероятностью откликались на опрос. Это и создало впечатление большинства в пользу Лэндона – искаженное представление, которое обмануло The Literary Digest. Искажение самоотбора было устранено, когда состоялись настоящие выборы.

Таким образом, это неожиданное расхождение прогноза и результатов выборов было следствием темных данных, но не из-за ошибок при составлении выборки, а по причине разной вероятности того, что республиканские и демократические избиратели вообще откликнутся на опрос. Причиной стала добровольность ответа (DD-тип 4: самоотбор).

Поскольку рамка выборки на основе сложного анализа была определена правильно (то есть опросчики точно знали, кто имеет право голосовать), то можно было бы настроить ее, как это описано в главе 9. Но там, где рамка выборки определена неверно, такая настройка будет куда сложнее или даже попросту невозможна. В этом случае мы покидаем область DD-типа 1: данные, о которых мы знаем, что они отсутствуют, и перемещаемся в область DD-типа 2: данные, о которых мы не знаем, что они отсутствуют. Веб-опросы (о них мы поговорим чуть позже) особенно уязвимы для этого сценария.

Надо признать, что ситуации, когда часть людей не отвечает на вопросы, как в примере с Лэндоном/Рузвельтом, бывают довольно сложными. Те, кто отказывается отвечать, могут существенно отличаться от тех, кто решил ответить: сам факт их неучастия в опросе уже показывает, что они в чем-то отличаются. Возможно, более склонными пройти опрос будут люди, проявляющие особый интерес к его теме, как в случае с Лэндоном/Рузвельтом. А может быть, это будут те, кто просто лучше информирован по данной теме. В Нидерландах проводилось исследование жилищных условий, которое показало, что более нуждающиеся люди чаще откликаются на опрос, поэтому может сложиться ложная общая картина[23]23
http://www.applied-survey-methods.com/nonresp.html, accessed 4 November 2018.

[Закрыть]. В опросах на тему виктимизации так называемые серийные события, например домашнее насилие, которое не имеет конкретного начала и конца, могут не выявляться в ходе опросов, посвященных отдельным инцидентам. Кроме того, люди зачастую отказываются от участия, если им кажется, что на опрос уйдет слишком много времени. В целом, что касается опросов и не только, самоотбор служит наиболее опасным источником темных данных.

Электоральные опросы, конечно, полезны, но, поскольку и государство, и бизнес все шире используют опросы как инструмент сбора информации, все больше становится и неадекватных ответов. Да и показатель отклика во всем мире падает. Проиллюстрируем это на примере обследования трудовых ресурсов Великобритании[24]24
Office for National Statistics: https://bit.ly/3aasSzL.

[Закрыть]. На рис. 2 показана доля тех, кто соглашался пройти опрос, по отношению ко всем, кому это было предложено, за каждый квартал с марта 2003 г. по сентябрь 2017 г. Эта доля снизилась за указанный период с более чем 65 % до 45 % и даже ниже. Такая однозначно нисходящая тенденция не способствует большой уверенности в выводах, которые будут сделаны на основе опросов в дальнейшем, если, конечно, не принять соответствующих мер.

Это явление не ограничивается обследованием трудовых ресурсов Великобритании, оно затрагивает все виды опросов во всем мире. Общенациональные опросы потребителей в США – это телефонные опросы на тему расходов и экономии. Уровень участия в них снизился с 79 % в 1979 г. до 60 % в 1996 г. и до 48 % в 2003 г. Множество других примеров приведено в отчете Национальной академии США за 2013 г. под редакцией Роджера Туранжо и Томаса Пльюиса, в котором говорится: «Уровень отклика домохозяйств на опросы государственных организаций и частных компаний, которые являются ценными источниками данных для исследований в области социальных наук, падают во всех наиболее богатых странах мира»[25]25
R. Tourangeau and T. J. Plewes, eds., Nonresponse in Social Surveys: A Research Agenda (Washington, DC: National Academies Press, 2013).

[Закрыть]. На рис. 3 показан уровень отклика в период 1997–2011 гг. для домохозяйств в рамках Национальной программы анкетирования по вопросам здоровья США. Хотя, возможно, и не такая яркая, как в предыдущем примере, но тенденция к снижению существует.

Снижение уровня отклика ясно прослеживается и в медицинских эпидемиологических исследованиях. Опрос Национальной системы надзора за поведенческими факторами риска проводится в Соединенных Штатах для изучения собственно факторов риска, скрининга (массового профилактического обследования населения с целью выявления болезней на ранней стадии) и доступа к медицинскому обслуживанию. Средний показатель участия в этом опросе снизился с 71 % в 1993 г. до 51 % в 2005 г.

Ключевой вопрос заключается в том, в какой момент уровень отклика становится слишком низким для того, чтобы можно было считать опрос полезным? В какой момент доля темных данных становится слишком высокой для того, чтобы результаты опроса можно было экстраполировать на все население? Достаточно ли 90 %-ного уровня отклика для получения надежных результатов? А 80 %-, 50 %-, 20 %-ного? И насколько эффективны методы корректировки результатов (подобные тем, которые описаны в главе 8), если отсутствуют ответы?

К сожалению, общего решения этой проблемы не существует. Все зависит от темы опроса, отдельных заданных вопросов, а также от того, как и почему появились отсутствующие данные. В некоторых случаях даже небольшая их доля может означать, что имеющиеся данные не являются репрезентативными для всего населения. Опрос всего населения для выяснения отношения к операциям по смене пола, в котором какой-нибудь вопрос покажется трансгендерам настолько оскорбительным, что все они откажутся на него отвечать, в то время как другие группы ответят, может привести к искажению результатов, даже если у опроса будет высокий уровень отклика. В других случаях, напротив, даже большой процент отсутствующих записей может оказать лишь незначительное влияние на выводы. Фактически из нашего предыдущего обсуждения важности размера выборки и случайности отбора следует, что если те, кто не откликнулся, не объединены каким-то важным общим свойством, то высокий уровень отклика может вообще не иметь значения.

В любом случае, как показывают примеры, объем темных данных в форме отсутствия ответа все возрастает, и, хотя они не всегда оказывают негативное влияние на выводы, когда это все-таки происходит, такое влияние может быть очень серьезным. Если бы вы управляли страной или крупной корпорацией, хотели бы вы полагаться на пустые поля опросов?

Одно из замечательных свойств интернета заключается в том, что он дает возможность проводить недорогие опросы, способные охватывать широкую аудиторию и, следовательно, формировать выборки огромных размеров. Но есть и ограничения. В частности, вы не можете контролировать, кто именно отвечает на ваши вопросы. В основном респонденты сами решают, принять им участие в опросе или скрыться за пологом темных данных. Очевидно, что это может пагубно влиять на любой опрос, поскольку означает, что выводы будут напрямую зависеть от того, кто на него откликнется, а кто нет. (Вспомните гипотетический опрос из главы 1, в котором был единственный вопрос: «Отвечаете ли вы на журнальные опросы?») И основная неопределенность возникает в отношении того, кто в принципе видит вашу веб-страницу с анкетой.

В то же время люди зачастую имеют возможность пройти веб-опрос несколько раз. Или еще хуже: недавно я встретил человека, который сказал, что всякий раз, когда ему предлагают пройти опрос по мобильному телефону, он передает его для ответов своему пятилетнему сыну. К тому же фундаментальная проблема заключается в том, что не у всех есть доступ к интернету – сравните это с ролью телефонов на выборах Лэндон/Рузвельт. В отчете 2013 г. из Нидерландов, опубликованном в International Journal of Internet Science, сообщалось, что «пожилые люди, незападные иммигранты и домохозяйства, состоящие из одного человека, часто не имеют доступа к интернету»[26]26
J. Leenheer and A. C. Scherpenzeel, “Does it pay off to include non-internet households in an internet panel?” International Journal of Internet Science 8 (2013), 17-29.

[Закрыть]. Впрочем, эта проблема, вероятно, будет решена с течением времени по мере развития технологий.

Почему же люди все меньше склонны отвечать на опросы? Туранжо и Пльюис изучили эту проблему и выяснили, что сами причины отсутствия отклика не сильно изменились с течением времени[27]27
Tourangeau and Plewes, Nonresponse in Social Surveys.

[Закрыть]. Прежде всего потенциальный респондент просто недостаточно заинтересован в участии, слишком занят или не хочет тратить на опрос много времени. Среди других причин можно выделить проблемы конфиденциальности, непонимание вопросов, а также негативные эмоциональные реакции – раздражение, «хлопанье дверью», недружелюбное или даже угрожающее поведение. Рискованное это дело, быть интервьюером! На основе исследования было высказано предположение, что люди просто пресыщены опросами – их слишком много, а бесконечными вопросами можно вывести из себя кого угодно. Ситуация усугубляется рекламными кампаниями, маскирующимися под опросы. Но главной причиной всего этого является самоотбор, когда респонденты сами решают, принимать им участие или нет.

Однако отсутствие отклика необязательно связано с респондентом. Бывает, что сам интервьюер не прикладывает достаточных усилий, чтобы выйти на связь с людьми. Действительно, для нечестных интервьюеров есть даже отдельный тип темных данных (DD-тип 14: фальшивые и синтетические данные). Именно такой случай показывает известная карикатура, где вместо того, чтобы задавать вопросы людям, переписчик сидит на бордюре и вписывает цифры «от фонаря»[28]28
H. Wainer, “Curbstoning IQ and the 2000 presidential election,” Chance 17 (2004): 43-46.

[Закрыть]. Однако, если вы переписчик, имейте в виду, что сложные статистические методы могут обнаружить этот обман, как и другие виды мошенничества с данными. Стоит также упомянуть языковые барьеры и простую потерю данных, которые также могут привести к отсутствию значений.

Опросы, затрагивающие чувствительные темы, – как правило, связанные с сексуальной активностью, финансовыми или медицинскими аспектами – особенно страдают от отсутствия и неполноты данных. Для таких случаев были разработаны довольно хитрые методы сбора данных, которые позволяют людям отвечать, сохраняя анонимность, или дают возможность получать агрегированные показатели, не раскрывая индивидуальных значений. К этим методам мы еще вернемся в главе 9.

Страницы книги >> Предыдущая | 1 2 3 4 5 6 | Следующая

Скачать книгу "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"