Текст книги "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

Текст добавлен: 1 февраля 2024, 16:50

Автор книги: Джордан Голдмейер

Жанр: Программирование, Компьютеры

Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 6 (всего у книги 21 страниц) [доступный отрывок для чтения: 7 страниц]

Скачать книгу

Шрифт:

- 100% +

Катастрофа, вызванная недостатком данных

28 января 1986 года на глазах у всего мира НАСА запустило космический шаттл «Челленджер» из Космического центра им. Кеннеди во Флориде при отрицательных температурах.

Рис. 4.2. График зависимости числа неисправностей уплотнительных колец от температуры во время полетов. График взят из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер»

Многие из нас знают эту часть истории «Челленджера», однако мало кто знаком со стоящими за ней данными. Дело в том, что у «Челленджера» тоже было шесть критически важных компонентов, известных как уплотнительные кольца, которые «предотвращают утечку горящего ракетного топлива из соединений ускорителя»[25]25
Цитата из статьи NRP. “Challenger engineer who warned of shuttle disaster dies.” www.npr.org/sections/thetwo-way/2016/03/21/470870426/challenger-engineer-who-warned-of-shuttle-disaster-dies

[Закрыть]. До запуска в ходе 23 испытаний имели место семь инцидентов с этими уплотнительными кольцами.

Знакомый сценарий?

Вечером накануне запуска НАСА оказалось перед тем же трудным выбором, что и вы в ходе выполнения своего мысленного упражнения. Согласно отчету комиссии Роджерса (который был заказан президентом Рональдом Рейганом после аварии «Челленджера»), в ночь перед запуском состоялось совещание по этому вопросу.

Менеджеры сравнили только те полеты, в ходе которых наблюдались тепловые повреждения уплотнительных колец, вместо того, чтобы проанализировать частоту возникновения этой неисправности с учетом всех полетов (рис. 4.2)[26]26
Цитата из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер» (Report to the President by the Presidential Commission on the Space Shuttle Challenger Accident). С. 146. sma.nasa.gov/SignificantIncidents/assets/rogers_commission_report.pdf

[Закрыть].

«При таком сравнении, – говорилось в отчете, – в распределении «повреждений» уплотнительных колец в диапазоне температур швов между 53 и 75 градусами по Фаренгейту, фиксируемых при запуске, нет ничего необычного».

Проанализировав эти неисправности, НАСА осуществило запуск. Но из-за необычно холодных условий уплотнительные кольца не сработали должным образом, и на 73-й секунде полета шаттл развалился на части. Погибли все семь астронавтов на борту.

Как вы думаете, какие данные упустили специалисты космического агентства?

Как насчет тех 16 испытательных запусков, в ходе которых не возникло никаких неисправностей, отмеченных на рис. 4.3 и задокументированных комиссией Роджерса?

Рис. 4.3. График зависимости числа неисправностей уплотнительных колец от температуры во время полетов, включая испытательные запуски без инцидентов. График взят из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер»

Примечание
В главе 2 «Что такое данные?» мы говорили о том, как тип данных диктует выбор метода анализа. Это как раз один из таких случаев. Количество инцидентов – это числовые счетные данные, которые требуют применения специального типа моделирования, называемого биномиальной регрессией. Поскольку речь идет о счетных, а не о непрерывных данных, вы не можете использовать линейную регрессию, о которой мы поговорим в главе 9. Описание биномиальной регрессии выходит за рамки этой книги, но тип данных, о которых идет речь, диктует использование именно этого метода анализа. Если бы вы использовали линейную регрессию, чтобы провести прямую линию через точки данных, вы бы предсказали отрицательные значения количества отказов для высоких температур, что не имеет никакого смысла.

Вернемся к мысленному упражнению. Запросили бы вы какие-нибудь недостающие данные? Если бы вы это сделали, а возможно, и привлекли бы к анализу статистиков, вы могли бы заметить тенденцию, предупреждающую о возможном отказе компонентов при более низких температурах. На рис. 4.4 показаны испытания нашего гипотетического беспилотного автомобиля, в том числе те, в ходе которых критические компоненты не выходили из строя.

Рис. 4.4. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов. Линия представляет собой модель биномиальной регрессии

В последующие десятилетия статистики, инженеры и исследователи тщательно изучали данные[27]27
Данные доступны для загрузки из репозитория для машинного обучения Калифорнийского университета в Ирвайне: archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+ Shuttle+O-Ring

[Закрыть], связанные с катастрофой «Челленджера». С помощью этого реального сценария мы хотели продемонстрировать вам те вопросы, с которыми приходится сталкиваться специалистам по работе с данными. В статье, опубликованной в престижном журнале Journal of the American Statistical Association (JASA), издаваемом Американской статистической ассоциацией, был представлен анализ, который мы воссоздали на рис. 4.4. Он говорит о том, что при отрицательных температурах пять из шести основных уплотнительных колец могут выйти из строя. При составлении этого графика использовались данные, которые не были учтены накануне запуска шаттла. В статье говорится о том, что «статистическая наука могла внести ценный вклад в процесс принятия решения о запуске»[28]28
Dalal, S. R., Fowlkes, E. B., & Hoadley, B. (1989). Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association, 84(408), 945–957.

[Закрыть].

Хотели бы вы увидеть такой же график накануне важной презентации?

Комментарий Алекса по поводу данных о состоянии «Челленджера»
Внимательные читатели, вероятно, заметили небольшое расхождение между данными, представленными на рис. 4.1, и графиками из отчета комиссии Роджерса на рис. 4.2 и 4.3. На рис. 4.1 температуре 53 °F (12 °C) соответствуют два инцидента, а на рис. 4.2 и 4.3 – три. (Все остальные точки данных совпадают.) Дело в том, что конструкция космического челнока предусматривала шесть основных и шесть второстепенных уплотнительных колец. Третий инцидент при температуре 53 °F (12 °C), отмеченный на рис. 4.2 и 4.3, произошел со второстепенным уплотнительным кольцом и был единственным случаем подобного повреждения, имевшим место в ходе 23 полетов, предшествовавших катастрофе. Приведенный здесь анализ сосредоточен на шести основных уплотнительных кольцах, как и анализ, приведенный в статье в журнале JASA.

История «Челленджера» демонстрирует довольно распространенное и пугающее явление. Мы часто сосредоточиваемся на данных, которые, как нам кажется, кодируют нужную нам информацию, отбрасывая при этом те данные, которые мы считаем несущественными. Мы признаем, что далеко не во всех ситуациях последствия могут быть столь же ужасными, как в случае с «Челленджером», когда на карту было поставлено так много.

Мы не утверждаем, что анализ полного набора данных позволил бы принять правильное решение. Никто не может знать это наверняка. Другие факторы тоже, безусловно, сыграли свою роль. Мы просто хотим сказать, что спор с данными часто помогает сделать дополнительные открытия.

И в этом смысле история, рассказанная данными о состоянии «Челленджера», вполне ясна. Однако большинство компаний не спорят со своими данными, развивая вместо этого культуру принятия. Результат этого – систематические провалы проектов по работе с данными, обусловленные неготовностью задавать важные вопросы.

Итак, цель этой главы – научить вас спорить с данными и задавать правильные вопросы.

Расскажите мне историю происхождения данных

Все данные берутся из какого-то источника, который нам не следует игнорировать. Итак, мы предлагаем вам спросить: «Каково происхождение этих данных?»

Этот вопрос нравится нам тем, что он является открытым и позволяет быстро оценить согласованность сырых данных с заданным относительно них вопросом. Кроме того, для ответа на него не требуются ни математические, ни статистические знания. Еще важнее то, что сам вопрос создает ощущение открытости и укрепляет доверие к последующим результатам (или заставляет сомневаться в них).

Внимательно проанализируйте ответ на предмет возможных проблем с корректностью и целостностью данных, обусловленных особенностями создавшего их лица или организации.

В частности, постарайтесь получить ответы на следующие вопросы:

– Кто собирал данные?

– Как собирались эти данные? Это данные наблюдений или экспериментальные данные?

Кто собирал данные?

Задавая этот вопрос, мы пытаемся, во-первых, установить, откуда именно были получены данные, а во-вторых, выявить возможные проблемы, связанные с их происхождением, чтобы при необходимости задать дополнительные вопросы.

Многие крупные компании считают, что все их данные берутся из внутреннего источника. Например, компания, использующая данные о рабочей силе (то есть данные, основанные на результатах опросов сотрудников и другой соответствующей информации), на самом деле может использовать данные, собранные третьей стороной и принадлежащие ей. Потребление этих данных может происходить через портал компании. Это может создать иллюзию того, что данные были собраны компанией и принадлежат ей, даже если это не так.

Мы хотим, чтобы вы точно определили того, кто собирал данные. Как главный по данным, вы должны убедиться в том, что полученные извне данные надежны и имеют отношение к поставленной бизнес-задаче. Большую часть данных, полученных из сторонних источников, довольно трудно использовать в том формате, в котором они предоставляются. Вам или кому-то из вашей команды придется преобразовать данные, полученные от третьей стороны, в нужный формат и придать им необходимую структуру, чтобы привести их в соответствие с уникальными информационными активами вашей компании.

Как собирались эти данные?

Вам также необходимо выяснить, как собирались данные. Этот вопрос поможет вам выявить возможные недопустимые выводы, сделанные об этих данных, а также этические проблемы, связанные с процессом их сбора.

Напомним, что существуют два основных метода сбора данных – наблюдение и эксперимент.

Наблюдение – это пассивный способ сбора данных. Примерами данных наблюдений могут быть количество посетителей веб-сайтов, посещаемость занятий и объем продаж. Экспериментальные данные собираются в условиях эксперимента при участии групп активного воздействия и принятии проверенных временем мер предосторожности, позволяющих обеспечить целостность и избежать искажения результатов из-за смешивающихся переменных. Экспериментальные данные – это золотой стандарт. Благодаря тщательному планированию эксперимента, направленному на обеспечение надежности результатов, эти данные позволяют выявлять причинно-следственные связи. Например, экспериментальные данные могут помочь ответить на следующие вопросы[29]29
Обратите внимание на то, что подобные вопросы вам следует задать до начала реализации проекта по работе с данными, как было сказано в главе 1.

[Закрыть]:

– Если мы дадим пациенту новое лекарство, поможет ли это вылечить его?

– Если мы дадим 15 %-ную скидку на наш продукт, приведет ли это к росту продаж в следующем квартале?

Однако большая часть бизнес-данных относится к данным наблюдений. Для установления причинно-следственных связей не стоит использовать исключительно данные наблюдений[30]30
Существуют способы использования данных наблюдений для выявления причинно-следственных связей, которые опираются на сильные предположения и продуманную статистику. Они называются методами выявления причинности.

[Закрыть]. Поскольку такие данные не были собраны в ходе тщательно продуманного эксперимента, их полезность и основанные на них результаты должны оцениваться в соответствующем контексте. Любые утверждения о причинно-следственной связи, основанные на данных наблюдений, следует воспринимать скептически.

Задав вопрос о способе сбора данных, вы сможете понять, насколько обоснован вывод о наличии причинно-следственной связи. На самом деле некорректное установление причинности – весьма существенная проблема, к которой нам еще не раз предстоит вернуться в следующих главах книги.

Казалось бы, для решения этой проблемы достаточно как можно чаще использовать экспериментальные данные. Однако их сбор не всегда возможен, финансово оправдан и даже этичен. Например, если бы вам поручили изучить влияние «вейпинга» (курения электронных сигарет) на подростков, вы не смогли бы случайным образом разделить испытуемых на экспериментальную и контрольную группы и заставить участников первой группы курить электронные сигареты во имя науки. Это было бы неэтично.

Как главный по данным, вы должны работать с имеющимися у вас данными, одновременно опосредуя их способность влиять на принимаемые бизнес-решения. У некоторых компаний и отделов есть ресурсы, позволяющие проверить многообещающие данные наблюдений с помощью серьезных экспериментов. Однако далеко не все бизнес-проблемы поддаются экспериментальному анализу.

Являются ли данные репрезентативными?

Вы должны убедиться в том, что имеющиеся у вас данные отражают характеристики интересующей вас совокупности. Если вас интересуют покупательские привычки американских подростков, то ваш набор данных должен отражать покупательские привычки всех подростков, живущих в США.

Индуктивная статистика существует именно потому, что у нас редко (если вообще когда-либо) есть все данные, необходимые для решения стоящей перед нами проблемы. Мы вынуждены опираться на выборки[31]31
Сбор всех сведений об интересующей совокупности называется переписью.

[Закрыть]. Однако если выборка нерепрезентативна, то выводы, сделанные на ее основе, не будут отражать реальные характеристики генеральной совокупности. Чтобы убедиться в репрезентативности данных, задайте следующие вопросы:

– Имеет ли место предвзятость выборки?

– Что вы сделали с выбросами?

Имеет ли место предвзятость выборки?

Предвзятость выборки возникает тогда, когда имеющиеся у вас данные систематически отклоняются или отличаются от тех данных, которые вас интересуют. Предвзятость выборки часто обнаруживается по косвенным признакам после принятия множества решений на основе данных, плохо отражающих ту проблему, для решения которой они были собраны. Систематическая неспособность получить предсказанный данными результат заставляет аналитиков вернуться к началу и проверить корректность исходных данных.

Если вы захотите узнать рейтинг одобрения политика на основе опроса избирателей, состоящих в его политической партии, ваша выборка будет предвзятой. Хороший план эксперимента позволяет предотвратить эту проблему.

В своей работе вы можете столкнуться с изначально предвзятыми данными. Данные наблюдений особенно подвержены подобной предвзятости. Вопрос: «Зачем данные были собраны?» поможет вам понять их назначение. При сборе подобных данных редко принимаются меры для обеспечения их непредвзятости.

Вам следует рассматривать все данные наблюдений как изначально предвзятые. Вам не нужно их отбрасывать, но вы всегда должны учитывать их недостатки.

Что вы сделали с выбросами?

Представьте, что в зарплатной ведомости компании вы видите цифру 50 000 000 долларов США рядом с именем нового управляющего. Вы бы посчитали это значение выбросом? Что бы вы с ним сделали?

Выбросы – это точки данных, которые значительно отличаются от всех остальных. Обнаружение выбросов должно спровоцировать дискуссию о том, какие данные следует исключить из анализа. Если кому-то не нравится влияние экстремального значения на результат анализа, это еще не значит, что от этого значения следует избавиться. Для удаления точки данных необходимо иметь хорошее обоснование.

Произвольное присвоение точкам данных статуса выбросов может привести к тому, что ваша выборка станет предвзятой. В случае исключения выброса исходная точка данных и причина ее исключения должны быть задокументированы и доведены до сведения остальных, особенно если это исключение привело к существенному изменению результата.

Какие данные я не вижу?

Отсутствующие данные – это данные, которые либо не были зафиксированы (не имеют источника), либо вы их просто еще не видели. Рассмотрим следующие примеры:

– Данные о неполной занятости не учитываются при определении уровня безработицы.

– Компания, инвестирующая во взаимные фонды, «списывает» активы с плохой доходностью, в результате чего долгосрочная доходность оставшихся фондов в среднем оказывается выше.

– В истории «Челленджера» не было учтено 16 из 23 точек данных, связанных с полетами этого космического челнока.

Всегда стоит задумываться об информации, которая не была закодирована в рассматриваемых вами данных. Играйте в детектива[32]32
Мы вернемся к этой идее в одной из следующих глав при обсуждении так называемой систематической ошибки выжившего.

[Закрыть].

Как вы поступили с отсутствующими значениями?

Отсутствующие значения – это буквально дыры в наборе данных. Они представляют собой точки данных, которые не были собраны, или исключенные выбросы (см. предыдущий раздел). Отсутствующие значения представляют проблему, но ее можно решить. Итак, всегда стоит спросить: «Как вы поступили с отсутствующими значениями?»

Предположим, вы работаете в компании, выпускающей кредитные карты, и собираете такие данные заявителей, как имя, адрес, возраст, статус занятости, доход, ежемесячные расходы на жилье и количество имеющихся банковских счетов. Ваша задача – предсказать, не просрочат ли эти заявители платеж в следующем году. Однако несколько заявителей не указывают свои доходы, из-за чего в системе сохраняется пробел – отсутствующее значение.

Вернемся к истории происхождения данных. Эта история начинается с подачи заявки на получение кредитной карты. Возможно, заявитель не указал свой доход, потому что думал, что ему откажут в выдаче кредитной карты, если его доход окажется слишком низким. Это означает, что сам факт отсутствия этого значения может говорить о возможной просрочке платежа в будущем. Такую информацию ни в коем случае не стоит отбрасывать!

Понимая это, дата-сайентист может создать новый категориальный признак под названием «Доход указан?» и ввести значение 1, если человек указал свой доход, и 0, если он этого не сделал. Таким образом, можно закодировать отсутствующие данные с помощью специальной категориальной переменной.

Позволяют ли данные измерить то, что вас интересует?

Мы часто верим в возможность измерить все и вся. Однако при анализе сложных идей, прежде чем что-то измерять, вам необходимо выяснить, позволяют ли предоставленные данные это сделать. Например, подумайте вот о чем:

– Как бы вы измерили лояльность клиента к вашей компании?

– Какие данные вы использовали бы для измерения «капитала бренда» или «репутации»?

– Какие данные могут показать, насколько сильно вы любите своего ребенка? Или домашнего любимца?

Все это очень трудно измерить. Благодаря кодированию информации данные позволяют нам приблизиться к ответам на эти вопросы, но в целом используемые нами данные представляют собой некоторую замену того, что мы пытаемся измерить. И степень, в которой такие данные отражают реальность, варьируется[33]33
Производственным, инженерным и исследовательским организациям также следует позаботиться об определении повторяемости и воспроизводимости данных, измеряемых с помощью технического оборудования.

[Закрыть].

Поскольку измерение таких сложных показателей, как капитал бренда и репутация, требует косвенных приближений, вы должны быть максимально правдивыми и честными в отношении ваших данных.

Сомневайтесь в данных любого размера

Может показаться, что сбор большего количества данных позволяет решить проблемы, присущие ограниченным выборкам. Однако не стоит думать, что чем больше выборка, тем надежнее данные. Если данные собраны должным образом, то большая выборка может помочь, однако в случае наличия предвзятости дополнительные данные вас не спасут.

Недолговечная шумиха вокруг больших данных предполагала, что большее количество данных само по себе может обеспечить большую научную строгость. Не думайте, что набор данных слишком большой для того, чтобы с ним спорить. Статистика не предполагает какого-либо порогового значения для размера выборки, превышение которого автоматически избавляет ее от предвзятости. Статистика предполагает поиск компромиссов между тем, что вы хотите узнать, и имеющимися у вас данными[34]34
При обдумывании подходящего размера выборки специалисты по статистике отталкиваются от величины мощности, о которой мы поговорим в главе 7.

[Закрыть].

Подведение итогов

Мы начали эту главу с обсуждения данных о катастрофе шаттла «Челленджер», но перенесли их на пример с автомобилем. Как было сказано в начале этой книги, умные люди и организации нередко допускают ошибки в данных.

Вот почему мы перечислили вопросы, которые вам следует задать, и различные проблемы, которые эти вопросы позволяют выявить. Мы рекомендуем вам использовать эти вопросы, чтобы глубже изучить проблемы, связанные с вашими данными. Вы можете самостоятельно придумать дополнительные вопросы. Мы настоятельно рекомендуем вам поделиться этими вопросами с вашей командой, чтобы согласовать усилия всех ее членов. Постоянно задавая сложные вопросы, главные по данным демонстрируют свою способность анализировать данные и подают хороший пример другим.

Глава 5
Исследуйте данные

«Если вы заставляете дата-сайентиста выуживать данные… то заслуживаете тот плохой анализ, который в итоге получаете»[35]35
Цитата из статьи “Understand Regression Analysis”, Amy Gallo, глава 10 в HBR Guide to Data Analytics Basics for Managers (HBR Guide Series).

[Закрыть].

– Томас Рэдман, «Доктор данных» и автор статей для журнала Harvard Business Review

Реализация проектов по работе с данными никогда не оказывается такой простой, какой ее пытаются представить руководству. Как правило, заинтересованные стороны видят отполированную презентацию в PowerPoint, в которой описан четкий путь от вопроса к данным, необходимым для нахождения ответа. Однако здесь отсутствуют все важные решения и допущения, сделанные аналитиками на этом пути. Хорошая команда дата-сайентистов идет не линейным, а извилистым путем, адаптируясь к совершенным по дороге открытиям. По мере продвижения они возвращаются к более ранним этапам и обнаруживают новые пути.

Этот итеративный процесс обнаружения и тщательного изучения данных известен как разведочный анализ данных (EDA, exploratory data analysis). Он был предложен статистиком Джоном Тьюки в 1970-х годах в качестве способа осмысления данных с помощью сводной статистики и визуализации перед применением более сложных методов[36]36
Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131–160).

[Закрыть]. Тьюки рассматривал EDA как работу детектива, полагая, что подсказки скрыты в данных, а их правильный анализ может подсказать следующие шаги. По сути, EDA – это еще один способ «поспорить» с имеющимися у вас данными. Это фундаментальная часть всей работы с данными, которая одновременно задает и меняет направление развития проекта, исходя из сделанных открытий.

Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 | Следующая

Скачать книгу "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

- 0
- 1
- 2
- 3
- 4
- 5
0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?

Текст книги "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

Автор книги: Джордан Голдмейер

Жанр: Программирование, Компьютеры

Примечание

Комментарий Алекса по поводу данных о состоянии «Челленджера»

Глава 5
Исследуйте данные

Популярные книги за неделю

Жанры библиотеки

Популярные серии книг

По году издания

Рекомендации

Текст книги "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

Автор книги: Джордан Голдмейер

Жанр: Программирование, Компьютеры

Примечание

Комментарий Алекса по поводу данных о состоянии «Челленджера»

Глава 5Исследуйте данные

Популярные книги за неделю

Жанры библиотеки

Популярные серии книг

По году издания

Рекомендации

Глава 5
Исследуйте данные