Текст книги "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт"

Текст добавлен: 1 февраля 2024, 16:50

Автор книги: Джордан Голдмейер

Жанр: Программирование, Компьютеры

Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 7 (всего у книги 21 страниц) [доступный отрывок для чтения: 5 страниц]

Скачать книгу

Шрифт:

- 100% +

Разведочный анализ данных и вы

Идея разведочного анализа данных может показаться кому-то некомфортной, поскольку она обнажает субъективную природу (искусство?) работы с данными. Если поставить перед двумя командами одну и ту же проблему и предоставить им одни и те же данные, то, используя разные методы анализа, они могут прийти к одинаковым или к разным выводам. На этом пути любые две команды (или два специалиста) вряд ли сделают все одинаково, поскольку для решения поставленной проблемы каждый человек будет использовать свой особый опыт, идеи и инструменты.

Поэтому в этой главе мы описываем разведочный анализ данных как непрерывный процесс, поддержание которого – обязанность главного по данным вне зависимости от того, является ли он рядовым специалистом или руководителем высшего звена. Вы узнаете, какие вопросы следует задавать и на что следует обращать внимание при изучении данных.

Вы менеджер или руководитель?
Если вы – заинтересованное лицо, менеджер или эксперт в предметной области, сделайте так, чтобы аналитики могли при необходимости с вами связаться. Ведите открытый диалог и будьте готовы к повторениям. Работайте с ними над выработкой корректных предположений. Не позволяйте команде заниматься выуживанием данных без понимания бизнес-контекста. В противном случае они могут пойти по пути, который имеет статистический, но не практический смысл. Одно неверное предположение может поставить под угрозу весь дальнейший анализ.

Мы прекрасно понимаем, что менеджеры не могут быть так же сильно погружены в тонкости проекта, как специалисты по работе с данными. Однако возможности для некоторого улучшения есть всегда. Вам не нужно заниматься микроменеджментом. Просто не игнорируйте эту работу[37]37
Заинтересованные стороны не должны заниматься микроменеджментом. Между бизнес-лидерами и командами, работающими с данными, должен быть определенный уровень доверия.

[Закрыть].

Освоение исследовательского образа мышления

Существуют десятки инструментов и языков программирования, способных помочь командам аналитиков без особых временных и денежных затрат изучить имеющиеся данные с использованием сводной статистики и визуализаций. Однако EDA следует рассматривать не как набор инструментов или контрольный список вопросов, а скорее как определенный образ мышления, вплетенный в каждый этап работы с данными, который вы можете использовать, даже не будучи профессиональным аналитиком.

Направляющие вопросы

Чтобы освоить исследовательский образ мышления и получить общее представление о процессе EDA, мы предлагаем вам рассмотреть краткий сценарий с использованием популярного набора данных Ames Housing Data (Данные о продаже домов в городе Эймс), созданного в образовательных целях[38]38
De Cock, D. (2011). Ames, Iowa: Alternative to the Boston housing data as an end of semester regression project. Journal of Statistics Education, 19(3). Данные можно загрузить с сайта www.kaggle.com/c/house-prices-advanced-regression-techniques.

[Закрыть].

Хотя единственно верного способа анализа этих данных не существует, для того чтобы помочь своей команде прийти к осмысленному выводу, вы можете задать следующие вопросы:

– Позволяют ли данные ответить на поставленный вопрос?

– Обнаружили ли вы какие-либо взаимосвязи?

– Обнаружили ли вы новые возможности в данных?

Давайте рассмотрим сценарий, а затем разберем каждый из этих трех вопросов, причины поиска ответа на них и проблемы, с которыми вы можете столкнуться.

Сценарий

Вы работаете в стартапе, занимающемся недвижимостью, и ваша задача – привлечь трафик на сайт. Однако вам трудно конкурировать с такими технологическими гигантами, как американская компания Zillow, чей знаменитый инструмент оценки стоимости жилья Zestimate^®[39]39
Компания Zillow очень серьезно относится к Zestimate®. В 2019 году она выделила 1 миллион долларов команде дата-сайентистов ради повышения точности прогнозов этого инструмента. venturebeat.com/2019/01/30/zillow-awards-1-million-to-team-that-reduced-home-valuation-algorithm-error-to-below-4

[Закрыть] привлекает большое количество людей (и денег) на сайт Zillow.com. Чтобы конкурировать с этим, вашему стартапу нужен собственный инструмент прогнозирования. Итак, перед вами поставлена задача построить модель, которая использует в качестве входных данных информацию о доме, а в качестве выходных данных выдает ориентировочную цену продажи.

Начальник присылает вам набор данных, в котором содержится 80 столбцов. Каждый из них описывает те или иные аспекты сотен жилых домов, проданных в городе Эймс, штат Айова, в период с 2006 по 2011 год.

Такое количество данных ошеломит кого угодно. Тем не менее перечисленные выше вопросы могут помочь вам приступить к их анализу.

Давайте разберем каждый их них.

Позволяют ли данные ответить на поставленный вопрос?

Как бы вам ни хотелось поскорее скормить данные новомодному алгоритму (например, воспользоваться методом глубокого обучения, описанным в главе 12), сначала следует спросить: «Позволяют ли данные ответить на поставленный вопрос?» И для получения ответа на него часто бывает достаточно просто взглянуть на имеющиеся данные.

Определитесь с ожиданиями и руководствуйтесь здравым смыслом

Вы должны иметь довольно хорошее представление о том, какая информация необходима для определения цены продажи дома, например, общая площадь, количество спален, количество ванных комнат, год постройки и так далее. Эти характеристики чаще всего интересуют потенциальных покупателей жилья, заходящих на ваш веб-сайт. Без их учета предсказание цены дома не кажется разумным.

Открыв файл, вы видите названия столбцов и типы данных. В нем присутствуют вполне ожидаемые признаки, а также полезные порядковые данные (например, «Общее качество дома, 1–10, где 10 означает «Превосходное»), номинальные данные («Окрестности») и множество других признаков. На первый взгляд, с данными все в порядке.

На следующем этапе вы, вероятно, решите изучить значения, которые принимают переменные. Охватывают ли они те сценарии, которые вы хотите проанализировать? Например, если вы обнаружите, что переменная «Тип здания: тип жилища» принимает только одно значение – «Дом на одну семью», но не включает квартиры, дуплексы или кондоминиумы, то ваша модель будет иметь ограниченный охват по сравнению с моделью компании Zillow. Ее инструмент Zestimate^® может предсказать цену продажи кондоминиума – но, если у вас нет исторических данных о них, модель вашей компании не сможет надежно предсказать его цену.

Мораль заключается в следующем: не выуживайте данные, как говорилось в цитате, приведенной в начале главы. Убедитесь в том, что данные позволяют ответить на поставленный вопрос.

Имеют ли данные интуитивный смысл?

Программное обеспечение сгенерирует для вас множество сводных статистических показателей. Ваша задача – поместить эти данные в контекст. Оцените соответствие этой сводной статистики своему интуитивному пониманию проблемы. Еще один ключевой компонент EDA – визуализации. Используйте их для обнаружения аномалий и других странностей в данных.

Визуализация данных

Давайте рассмотрим несколько примеров проведения разведочного анализа данных с использованием гистограмм, диаграмм размаха, столбиковых графиков и диаграмм рассеяния. Если вы уже хорошо знакомы с такими графиками, то можете пропустить этот раздел.

Гистограммы позволяют определить форму распределения непрерывных числовых данных. Рассмотрим гистограмму продажных цен, изображенную на рис. 5.1. На ней мы видим около 125 домов стоимостью до 200 000 долларов и длинный хвост справа, сформированный самыми дорогими домами. Из-за этого хвоста средняя цена продажи (181 000 долларов) превышает медианную цену (163 000 долларов). То есть из-за небольшого количества дорогих домов среднее значение превышает медианное.

Рис. 5.1. Гистограмма, отражающая форму распределения цен на дома

Гистограммы помогают обнаруживать аномалии. Если бы вы увидели отрицательные значения, говорящие о получении покупателем платы за покупку дома, или неожиданно большие значения у правого края графика на рис. 5.1, что бывает при задании максимального значения (например, когда любое значение, превышающее 500 000 долларов, записывается как 500 000 долларов), вам бы захотелось задать дополнительные вопросы.

Диаграммы размаха[40]40
Диаграммы размаха также называют диаграммами типа «ящик с усами». «Ящик» содержит центральные 50 % наблюдений (значения в диапазоне между 25-м и 75-м процентилями), линия в ящике – это медиана, а «усы» показывают диапазон, в котором находятся оставшиеся точки данных. Точки, выходящие за пределы этого диапазона, – потенциальные выбросы.

[Закрыть] можно использовать для сравнения данных, принадлежащих нескольким группам. На рис. 5.2 показана диаграмма размаха для каждого рейтинга качества дома, где 1 означает плохое, а 10 – превосходное.

Рис. 5.2. Использование диаграмм размаха для сравнения продажных цен при различных рейтингах качества

В данном случае взаимосвязь между общим качеством дома и его ценой кажется интуитивно понятной. Более качественные дома обычно продаются по более высокой цене. Мы можем обнаружить дом за 200 000 долларов, общее качество которого было оценено на 10 (нижний конец линии). Однако разумно предположить, что он был продан дешевле, чем другие дома с оценкой 10 из-за прочих факторов. Специалистам по работе с данными следует проверять такого рода информацию.

Столбиковые графики (рис. 5.3) отображают распределение категориальных данных.

Рис. 5.3. Столбиковый график, показывающий количество домов с разными типами электроустановок

Не все виды визуализаций могут показаться интересными на первый взгляд. Тем не менее ознакомиться с ними все равно стоит – хотя бы для того, чтобы подтвердить (или оспорить) ответ на вопрос: «Имеют ли данные интуитивный смысл?» Согласно графику на рис. 5.3, почти все дома имеют одинаковое значение указанного признака. Однако с точки зрения поставленной перед вами задачи эта информация полезна. Поскольку значение этой переменной одинаковое для большинства домов, она, вероятно, не будет существенно влиять на разницу в их стоимости.

Рис. 5.4. Линейная диаграмма, отражающая количество домов, проданных в разные месяцы

На рис. 5.4 показана линейная диаграмма, отражающая количество домов, проданных в разные месяцы. Явление, при котором продажи домов увеличиваются летом и сокращаются зимой, называется сезонностью. Линейные диаграммы хорошо отражают такие тенденции.

На следующем этапе мы можем изучить диаграмму рассеяния, демонстрирующую зависимость цены дома от его размера (площади первого этажа в квадратных футах).

Зависимость, отображенная на рис. 5.5, интуитивно понятна. Большие дома обычно стоят дороже. Разумеется, из этого правила есть исключения: иногда небольшие дома стоят дороже, чем большие. Вариации есть всегда, но они не отменяют общую тенденцию. И поскольку в конечном итоге мы пытаемся предсказать цену продажи дома, его площадь – весьма полезная информация.

Рис. 5.5. Диаграмма рассеяния, отражающая площадь в квадратных футах и цену продажи

В этом разделе мы лишь в общих чертах обсудили различные способы визуализации данных и то, какую информацию можно быстро получить с их помощью. Если вы хотите глубже изучить методы использования визуализации в процессе исследования данных, мы рекомендуем ознакомиться со следующими книгами:

– Now You See it: Simple Visualization Techniques for Quantitative Analysis, Stephen Few (Analytics Press, 2009);

– The Visual Display of Quantitative Information, Edward Tufte (Graphics Press, 2011).

Осторожно: выбросы и отсутствующие значения

В каждом наборе данных будут наблюдаться аномалии, выбросы и пропущенные значения. Что с ними можно сделать?

Например, в диаграмме размаха на рис. 5.2 использовалось эмпирическое правило для того, чтобы отметить несколько точек данных в качестве возможных выбросов. Однако вам не следует отключать критическое мышление и автоматически удалять подобные точки как потенциально бесполезные только потому, что на графике они классифицированы как «выбросы». Компания Zillow никогда не удаляет полезную информацию из своих наборов данных просто потому, что средство визуализация приняло их за выбросы. Учитывайте контекст данных: в мире недвижимости нередко встречаются дома, которые стоят намного больше, чем большинство других домов. Вспомните уроки из предыдущей главы. Для удаления выбросов вы должны иметь хорошее обоснование. Есть ли оно у вас?

А как быть с отсутствующими значениями? Означает ли отсутствие значения в поле «Размер подвала» то, что в доме есть подвал, но нам неизвестна его площадь? Или это значит, что подвала нет, и значение должно быть равно 0?

Мы имеем право забрести в дебри. Специалисты по работе с данными принимают сотни подобных решений в ходе реализации проектов. Однако их суммарный эффект может оказаться весьма значительным. Предоставленные самим себе и лишенные руководства со стороны экспертов в предметной области аналитики могут отбрасывать сложные и нюансированные случаи до тех пор, пока данные не станут слишком оторванными от той реальности, которую они призваны описать. Вот почему всем, включая менеджеров, важно четко понимать, чем занимаются команды дата-сайентистов.

Обнаружили ли вы какие-либо взаимосвязи?

К счастью, первые сводные статистические показатели и результаты первой визуализации данных о домах кажутся обнадеживающими, и вы думаете, что эти данные действительно могут быть использованы при построении модели для прогнозирования цены продажи. Поэтому вы переходите к следующему вопросу: «Обнаружили ли вы какие-либо взаимосвязи?»

Визуализация данных показала, что более высокое общее качество дома и его большая площадь связаны с более высокими ценами, и это неудивительно. Это та обратная связь, которую вы хотите получить от данных. Эти взаимосвязи имеют смысл, и выбранные вами переменные будут использоваться при построении модели для прогнозирования стоимости дома. Какие еще переменные могут быть связаны с его ценой продажи?

На данном этапе для обнаружения в данных интересных закономерностей и взаимосвязей имеет смысл использовать сводную статистику, поскольку построение всех возможных диаграмм рассеяния может оказаться нецелесообразным. Вместо этого взаимосвязи, обнаруженные на таких диаграммах, могут быть сведены к статистической корреляции, которая допускает (но не доказывает) существование взаимосвязи между двумя числовыми переменными.

Корреляция

Корреляция – это мера связанности двух переменных. Наиболее распространенный коэффициент корреляции в сфере бизнеса – коэффициент корреляции Пирсона. Он принимает значения в диапазоне от –1 до 1 и измеряет степень линейной зависимости (простая прямая линия) между парами чисел, отображаемыми на диаграмме рассеяния. Корреляция может быть положительной, когда увеличение одной переменной сопровождается увеличением другой: большие дома продаются за большие деньги. Корреляция также может быть отрицательной: более тяжелые автомобили менее экономичны в плане расхода топлива. Коэффициент корреляции между размером дома и ценой продажи составляет 0,62 (рис. 5.6). Чем ближе точки к линии тренда, тем выше степень корреляции[41]41
Корреляция вовсе не означает, что наклон линии должен быть крутым. Идеальная корреляция между двумя переменными вполне может описываться почти плоской (хоть и не горизонтальной) линией.

[Закрыть].

Рис. 5.6. Коэффициент корреляции между площадью дома и ценой продажи составляет 0,62 (определяется степенью близости точек данных к линии тренда)

В данном случае корреляция может помочь двумя способами. Во-первых, нахождение переменных, коррелирующих с ценой продажи, упрощает ее предсказание. Во-вторых, корреляция позволяет уменьшить избыточность данных, поскольку две сильно коррелированные переменные содержат примерно одинаковую информацию. Представьте два столбца с данными, в одном из которых площадь дома указана в квадратных футах, а во втором – в квадратных метрах. Эти значения идеально коррелируют между собой, и для проведения анализа достаточно только одного из них.

Хотя большинство из нас имеет базовое представление о корреляции и часто использует ее, данная метрика может ввести в заблуждение. Давайте разберемся, почему.

Осторожно: неверная интерпретация корреляции

Люди часто забывают о том, что корреляция – это мера линейной зависимости, но не все зависимости линейны.

Предположим, что вы анализируете данные по двум районам, в каждом из которых находится по 11 домов. Статистический анализ показывает, что количество деревьев на участке сильно коррелирует с ценой домов в этих районах. Коэффициент корреляции равен 0,8: дома с большим количеством деревьев на участке, как правило, продаются дороже.

Однако визуализация данных показывает нечто неожиданное. На рис. 5.7 слева показана вполне ожидаемая для высокой корреляции картина: линейный тренд с разбросанными вокруг него точками данных. Однако график справа показывает, что количество деревьев положительно коррелирует с ценой дома только до определенной точки (11 деревьев), после которой тенденция меняется на противоположную. В районе Хиллтоп на газонах у некоторых домов деревьев может быть слишком много.

Данные, представленные на рис. 5.7, взяты не из набора данных о недвижимости в Эймсе, с которым мы работали до этого, а из популярного набора данных под названием «Квартет Энскомба»[42]42
Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. Для получения значений, напоминающих цены на дома, мы умножили зависимую переменную на 22 000.

[Закрыть]. У него четыре набора числовых данных, имеющих идентичные сводные статистические показатели, но разные результаты визуализации. (Здесь мы привели только два и скорректировали данные в соответствии с темой недвижимости.)

Рис. 5.7. Два набора данных с коэффициентом корреляции 0,8

Мораль: используйте методы визуализации для проверки заслуживающих внимания корреляций в данных, потому что выявленная линейная зависимость может не рассказать всей истории.

Корреляция отсутствует, но все равно интересно
На рис. 5.8 показаны два графика, которые имеют одинаковый близкий к нулю коэффициент корреляции. Однако это не значит, что на них не происходит ничего интересного. C «датазавром», изображенным на левом графике, вам вряд ли доведется столкнуться, чего нельзя сказать о сценарии на правом графике. На нем на самом деле отображены пять групп линейно коррелированных данных, которые при рассмотрении их как единой группы оказываются линейно некоррелированными. Это явление известно как парадокс Симпсона, и мы поговорим о нем более подробно в главе 13.

Рис. 5.8. Набор данных Datasaurus можно загрузить бесплатно[43]43
Набор данных Datasaurus был создан Альберто Каиро и доступен на GitHub: github.com/lockedata/datasauRus

[Закрыть]. Как и в случае с «Квартетом Энскомба», оба представленных здесь набора данных имеют идентичные сводные статистические показатели

Осторожно: корреляция не означает причинность

Скорее всего, вы уже слышали фразу «корреляция не означает причинность»[44]44
Авторы этого руководства поспорили о том, можно ли вообще не упомянуть эту фразу в книге, посвященной науке о данных. О результате этого спора вы можете догадаться сами.

[Закрыть]. Однако повторить ее будет нелишним, учитывая, как часто ее игнорируют и неправильно понимают.

Когда две переменные коррелируют между собой, пусть даже и сильно, это не означает, что одна влияет на другую. Однако многие люди попадают в эту ловушку, пытаясь объяснить корреляцию между двумя переменными наличием причинно-следственной связи между ними. Чтобы показать, что корреляция не подразумевает причинность, статистики используют максимально абсурдные примеры. В частности, продажи мороженого коррелируют с нападениями акул (в обоих случаях пик приходится на летние месяцы). Размер обуви коррелирует с навыками чтения (и то и другое увеличивается с возрастом). Однако предположения о том, что сокращение объема продаж мороженого может снизить риск нападения акул, а покупка обуви большего размера может улучшить навыки чтения, абсурдны. Очевидно, что помимо температуры воздуха на улице в примере с мороженым и возраста в примере с размером обуви есть и другие факторы, играющие роль в формировании этих мнимых взаимосвязей.

Однако в тех случаях, когда в основе корреляции не лежит откровенная шутка, а истинный причинный фактор не известен, о мантре «корреляция не означает причинность» очень часто забывают.

Например, в ходе анализа данных о недвижимости вы обнаруживаете, что показатели школьной успеваемости коррелируют со стоимостью домов. Означает ли это, что близость хорошей школы повышает стоимость дома? Хорошие школы, по-видимому, делают район более привлекательным. А может быть, наоборот: более высокие цены на жилье способствуют повышению школьной успеваемости? Возможно, благодаря увеличению налоговых поступлений школе выделяется больше ресурсов. А может быть, причинно-следственная связь действует в обоих направлениях, создавая петлю обратной связи? В большинстве случаев мы точно этого не знаем. Здесь сочетаются многие факторы, и в имеющемся у нас наборе данных редко можно найти все ответы.

Всегда безопаснее предполагать, что между двумя коррелирующими переменными «нет причинно-следственной связи», если только кто-то не провел эксперимент, доказывающий обратное. Однако не стоит впадать в крайности. Мы по собственному опыту знаем, что иногда компании, академики и СМИ предполагают наличие причинно-следственной связи там, где этого делать не следует, а иногда наоборот – отвергают важную взаимосвязь, приняв ее за ошибку. Пример подобного необоснованного игнорирования взаимосвязи описан в следующей врезке.

Курение и рак легких
Рональд Э. Фишер, один из ведущих статистиков XX века, участвовавший в разработке ряда методов, описанных в этой книге, довольно скептически относился к исследованиям, связывавшим курение табака с заболеваемостью раком.

Больше всего Фишера заботили смешивающиеся переменные. Например, что, если некоторые люди генетически предрасположены к развитию рака легких и курят для того, чтобы облегчить симптомы болезни? По словам Фишера, ранние исследования рисков употребления табака содержали «издавна известную ошибку, выражавшуюся в том, что вывод о причинности делался на основе корреляции»[45]45
Fisher, R. A. (1958). Cancer and smoking. Nature, 182 (4635), 596.

[Закрыть].

Однако теперь мы точно знаем, что связь между ними есть. Итак, нам следует проявлять осторожность не только для того, чтобы не увидеть причинность там, где ее нет, но и чтобы не проигнорировать ее там, где она пока еще не доказана.