Читать книгу "Наука о данных"

Текст добавлен: 25 марта 2020, 10:20

Автор книги: Брендан Тирни

Жанр: Базы данных, Компьютеры

Возрастные ограничения: 12+

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 3 (всего у книги 12 страниц) [доступный отрывок для чтения: 3 страниц]

Скачать книгу

Шрифт:

- 100% +

Глава 2
Что такое данные и что такое набор данных?

Как следует из названия, наука о данных фундаментально зависит от самих данных. По существу данные являются абстракцией реальной сущности (человека, объекта или события). Термины «переменная», «признак» или «атрибут» часто используются взаимозаменяемо для обозначения отдельно взятой абстракции. Обычно каждый объект описывается рядом атрибутов. Например, книга может иметь следующий набор атрибутов: автор, название, тема, жанр, издатель, цена, дата публикации, количество слов, глав, страниц, издание, ISBN и т. д.

Набор данных состоит из данных, относящихся к совокупности объектов, причем каждый объект описан в терминах набора атрибутов. В своей наиболее простой форме[25]25
Хотя многие наборы данных можно описать как плоскую матрицу n × m, существуют сценарии, в которых набор данных представлен в более сложной форме: например, если набор данных описывает эволюцию нескольких атрибутов во времени, то каждый момент времени в наборе данных будет представлен двухмерной плоской матрицей n × m, перечисляющей состояние атрибутов в данный момент времени, но общий набор данных будет трехмерным, где время используется для связывания двумерных срезов момента. В таком контексте термин «тензор» иногда используется для придания идее матрицы дополнительного измерения.

[Закрыть] набор данных организован в виде матрицы размером n × m, называемой аналитической записью, где n – количество объектов (строк), а m – количество атрибутов (столбцов). В науке о данных термины «набор данных» и «аналитическая запись» часто используются взаимозаменяемо, при этом аналитическая запись является конкретным представлением набора данных. Таблица 1 иллюстрирует аналитическую запись для набора данных нескольких книг. Каждый ряд в таблице описывает одну книгу. Термины «объект», «экземпляр», «пример», «сущность», «кейс» и «запись» используются в науке о данных для обозначения строки. Таким образом, набор данных содержит набор объектов, и каждый из объектов описывается набором атрибутов.

Построение аналитической записи – необходимое условие работы с данными. Фактически в большинстве проектов по обработке данных бо́льшая часть времени и усилий уходит на создание, очистку и обновление аналитической записи. Аналитическая запись часто создается путем объединения информации из множества различных источников: может потребоваться извлечение данных из нескольких баз, хранилищ или компьютерных файлов в разных форматах (например, в виде электронных таблиц и CSV-файлов) или скрапинг[26]26
Скрапинг (англ. scraping) – в широком смысле сбор данных с интернет-ресурсов. – Прим. пер.

[Закрыть] в интернете или социальных сетях.

В таблице 1 перечислены четыре книги. Если не считать атрибут ID, который представляет собой простую метку строки и, следовательно, бесполезен для анализа, каждая книга описана с помощью шести атрибутов: название, автор, год, обложка, издание и цена. Мы могли бы включить их намного больше для каждой книги, но, как это обычно и бывает в подобных проектах, нам нужно ограничить набор данных. В нашем случае мы должны просто уместить атрибуты в размер страницы. Однако в большинстве проектов ограничения касаются того, какие атрибуты доступны, а также какие из них имеют отношение к проблеме, которую мы пытаемся решить в конкретной предметной области. Включение дополнительных атрибутов в набор данных никогда не обходится без затрат. Во-первых, вам потребуются дополнительные время и усилия для сбора и проверки качества данных в атрибутах для каждого объекта и их интеграции в аналитическую запись. Во-вторых, включение нерелевантных или избыточных атрибутов может отрицательно сказаться на производительности многих алгоритмов, используемых для анализа данных. Включение большого количества атрибутов в набор данных увеличивает вероятность того, что алгоритм найдет не относящиеся к делу или ложные закономерности, которые только кажутся статистически значимыми в рамках выборки объектов. С проблемой правильных атрибутов сталкиваются все проекты науки о данных, и иногда ее решение сводится к итеративному процессу проведения экспериментов методом проб и ошибок, где каждая итерация проверяет результаты, полученные с использованием различных подмножеств атрибутов.

Существуют разные типы атрибутов, и для каждого из них подходят разные виды анализа. Их понимание и распознавание является фундаментальным навыком для специалиста по данным. К стандартным типам относятся числовые (включая интервальные и относительные), номинальные и порядковые. Числовые атрибуты описывают измеримые величины, представленные целыми числами или действительными величинами. Числовые атрибуты могут быть измерены как по шкале интервалов, так и по шкале отношений. Интервальные атрибуты измеряются по шкале с фиксированными, но произвольными единицами измерений и произвольным началом отсчета. Примерами интервальных атрибутов могут быть измерения даты и времени. К ним применяют упорядочивание и вычитание. Умножение, деление и прочие операции в этом случае не подходят. Шкала отношений аналогична шкале интервалов с единственным отличием: ее нулевая точка – истинный нуль. Он указывает на то, что количество, которое могло бы быть измерено, отсутствует. Особенность шкалы отношений состоит в том, что мы можем описать любое значение как кратное другому значению. Температура – прекрасный пример для понимания разницы между шкалой интервалов и шкалой отношений[27]27
Han, Jiawei, Micheline Kamber, and Jian Pei. 2011. Data Mining: Concepts and Techniques, Third Edition. Haryana, India; Burlington, MA: Morgan Kaufmann.

[Закрыть]. По шкале Цельсия и по шкале Фаренгейта температура измеряется интервально, поскольку значение 0 на любой из этих шкал не указывает на отсутствие тепла. Таким образом, хотя мы и можем вычислить разницу между температурами на этих шкалах и сравнить различия, мы не можем сказать, что 20 °C – это в два раза теплее, чем 10 °C. В отличие от этого, измерение температуры в кельвинах ведется по шкале отношений, поскольку 0 K (абсолютный нуль) – это температура, при которой прекращается всякое тепловое движение. Другие распространенные примеры измерений по шкале отношений: количество денег, вес, рост и экзаменационные отметки (шкала 0‒100). В таблице 1 атрибут года является примером атрибута шкалы интервалов, а атрибут цены – примером атрибута шкалы отношений.

Номинальные (также известные как категориальные) атрибуты принимают значения из ограниченного набора. Эти значения являются именами (поэтому они и называются номинальными) для категорий, классов или обстоятельств. Примеры номинальных атрибутов включают семейное положение (холост, женат, разведен) или тип пива (эль, светлый эль, пильзнер, портер, стаут и т. д.). Бинарный атрибут – это особый случай номинального атрибута, у которого набор возможных значений ограничен только двумя. Примером может служить бинарный атрибут «спам», который описывает, является электронная почта спамом (да) или не является (нет). К номинальным атрибутам не могут быть применены упорядочивание или арифметические операции. Обратите внимание, что номинальный атрибут может быть отсортирован в алфавитном порядке, но эта операция не тождественна упорядочиванию. В таблице 1 автор и название являются примерами номинальных атрибутов.

Порядковые атрибуты аналогичны номинальным, но с той разницей, что можно ранжировать значения переменных. Например, атрибут, описывающий ответ на вопрос анкетирования, может принимать значения из области определения: «очень не нравится», «не нравится», «нейтрально», «нравится» и «очень нравится». Существует естественное упорядочивание этих значений – от сильной неприязни к сильной симпатии (или, наоборот, в зависимости от условия). Тем не менее важной особенностью порядковых атрибутов является отсутствие понятия равного расстояния между этими значениями. Например, когнитивное расстояние между неприязнью и нейтральным отношением может быть отличным от расстояния между симпатией и сильной симпатией. В результате неуместно применять арифметические операции (такие, как усреднение) к порядковым атрибутам. В таблице 1 атрибут «издание» является примером порядкового атрибута. Граница между номинальными и порядковыми данными не всегда четкая. Для примера возьмем атрибут, который описывает погоду и может принимать значения «солнечно», «дождливо», «пасмурно». Один человек может сказать, что этот атрибут номинальный, значения которого не упорядочены, в то время как другой будет утверждать, что атрибут является порядковым, при этом рассматривая облачность как промежуточное значение между «солнечно» и «дождливо»[28]28
Hall, Mark, Ian Witten, and Eibe Frank. 2011. Data Mining: Practical Machine Learning Tools and Techniques.

[Закрыть].

Тип атрибута (числовой, порядковый, номинальный) влияет на методы анализа и понимания данных. Эти методы включают в себя как основную статистику, которую мы можем использовать для описания распределения значений атрибута, так и более сложные алгоритмы, которые мы применяем для выявления закономерностей отношений между атрибутами. На базовом уровне анализа числовые атрибуты допускают арифметические операции, а типичный статистический анализ, применяемый к числовым атрибутам, заключается в измерении центральной тенденции (с использованием среднего значения атрибута) и разброса значений атрибутов (с использованием дисперсии или стандартного отклонения). Однако не имеет смысла применять арифметические операции к номинальным или порядковым атрибутам. Базовый анализ этих типов атрибутов включает в себя подсчет того, сколько раз значение встречается в наборе данных, и/или вычисление процента вхождения этого значения.

Данные генерируются в процессе абстракции, поэтому они всегда являются результатом принятых человеком решений и сделанного им выбора. В основе каждой абстракции конкретный человек или группа людей решают, от чего абстрагироваться и какие категории или измерения использовать в полученном отображении. Поэтому данные никогда не являются объективным описанием мира. Данные всегда частичны и предвзяты. Как заметил Альфред Коржибски: «Карта не является отображаемой ею территорией, но если она верная, то имеет структуру, подобную территории, которая содержит информацию о ее полезности[29]29
Korzybski, Alfred. 1996. “On Structure.” In Science and Sanity: An Introduction Ot NonAristotelian Systems and General Semantics, edited by Charlotte Schuchardt-Read, CDROM First Edition. European Society for General Semantics. http://esgs.free.fr/uk/art/sands.htm.

[Закрыть]».

Другими словами, данные не являются идеальным отображением сущностей и процессов реального мира, которые мы пытаемся постичь, но если быть аккуратным при моделировании и сборе данных, то результаты анализа могут дать полезную информацию для решения наших реальных проблем. Сюжет фильма «Человек, который изменил все» (Moneyball), о котором упоминалось в главе 1, служит примером того, что определяющим фактором успеха во многих проектах науки о данных являются абстракции (атрибуты), подходящие для использования в данной конкретной области. Напомним, что ключом в этой истории было осознание клубом «Окленд Атлетикс» того, что процентное соотношение попадания игрока на базу и упущенных возможностей является более информативным показателем его успешности, чем традиционно принятые в бейсболе статистические данные, такие как средний уровень достижений. Использование различных атрибутов для описания игроков дало «Окленд Атлетикс» лучшую, нежели у других команд, модель, которая позволила им выявлять недооцененных игроков и конкурировать с крупными клубами при меньшем бюджете.

Эта история иллюстрирует применимость старой поговорки «Что посеешь – то и пожнешь» к науке о данных: если входные данные вычислительного процесса неверны, то выходные данные также будут неправильны. Действительно, наука о данных имеет две особенности, которые всегда необходимо учитывать: а) для успешности проектов необходимо уделять много внимания созданию самих данных (как с точки зрения выбора, который мы делаем при моделировании абстракции, так и с точки зрения качества данных, полученных в процессе) и б) необходимо проверять результаты процесса, хотя бы потому, что выявленная компьютером закономерность может оказаться основанной на отклонениях модели и увести нас в сторону от реального понимания анализируемых процессов.

Перспективы данных

Помимо типов (числовые, номинальные и порядковые), существуют и другие полезные способы классификации данных. Один из них различает структурированные и неструктурированные данные. Структурированными называются данные, которые могут храниться в таблице, где каждый объект имеет одинаковую структуру (т. е. набор атрибутов). В качестве примера можно привести демографические данные населения, где каждая строка в таблице описывает одного человека и состоит из одного и того же набора атрибутов (имя, возраст, дата рождения, адрес, пол, образование, статус занятости и т. д.). Структурированные данные можно легко хранить, систематизировать, искать, переупорядочивать и объединять с другими структурированными данными. К ним легко применяемы методы науки о данных, поскольку по определению они уже находятся в формате, который подходит для интеграции в аналитическую запись. Неструктурированные данные описывают такие данные, где каждый объект в наборе может иметь собственную внутреннюю структуру и эта структура необязательно одинакова для каждого объекта. Представьте себе набор веб-страниц, где у каждой есть структура, но при этом отличная от других. Неструктурированные данные встречаются гораздо чаще, чем структурированные. Например, естественные текстовые массивы (электронные письма, твиты, СМС, посты, романы и т. д.) можно считать неструктурированными данными; то же относится к коллекциям звуковых, графических и видеофайлов. Различия в структуре между отдельными элементами не позволяют анализировать неструктурированные данные в необработанном виде. Зачастую мы можем извлекать структурированные данные из неструктурированных, используя методы искусственного интеллекта (такие, как обработка естественного языка или машинное обучение), цифровую обработку сигналов или компьютерное зрение. Однако внедрение и тестирование этих процессов преобразования данных является дорогостоящим и трудоемким и может привести к значительным накладным расходам в проекте.

Иногда атрибутами являются необработанные абстракции, извлеченные непосредственно из событий или объектов, например рост человека, число слов в электронном письме, температура в комнате, время или место события. Но кроме того данные могут быть производными, т. е. полученными из других данных. Например, средняя зарплата в компании или разница температур в комнате за период времени. В обоих случаях результирующие данные являются производными от исходного набора необработанных данных (отдельно взятых зарплат или показаний температуры) путем применения к ним функции. Часто реальная ценность проекта по обработке данных состоит в выявлении одного или нескольких важных производных атрибутов, которые обеспечивают понимание проблемы. В качестве иллюстрации представьте, что мы пытаемся исследовать проблему ожирения и выявить атрибуты, которые идентифицируют потенциально подверженных заболеванию людей. Мы бы начали с необработанных атрибутов отдельных лиц, их роста и веса, но после более подробного исследования вопроса создали бы более информативный производный атрибут, такой как индекс массы тела (ИМТ). ИМТ – это соотношение массы тела и роста человека. Понимание того, что взаимосвязь необработанных атрибутов массы и роста дает больше информации об ожирении, чем любой из этих двух признаков по отдельности, может помочь нам определить людей в группе населения, которые подвержены риску ожирения. Очевидно, что ИМТ является простейшим примером, который мы используем здесь, чтобы показать важность производных атрибутов. Но давайте рассмотрим ситуации, когда понимание проблемы приходит через несколько производных атрибутов, где каждый, в свою очередь, включает в себя две (или более) характеристики. Именно в таких условиях, когда несколько атрибутов взаимодействуют друг с другом, наука о данных дает нам реальные преимущества, поскольку ее алгоритмы способны извлекать производные атрибуты из необработанных данных.

Существует два основных типа необработанных данных по способу их получения: собранные и выхлопные данные[30]30
Kitchin, Rob. 2014. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. Sage.

[Закрыть]. Собранные данные получают посредством прямого измерения или наблюдения, предназначенного для этой цели. Например, основная цель опросов или экспериментов состоит в сборе конкретных данных по конкретной теме. Выхлопные данные, напротив, побочный продукт процесса (подобно выхлопным газам), основной целью которого является нечто иное, чем сбор данных. Например, основная цель социальных сетей – дать пользователям возможность общаться друг с другом. Однако для каждого опубликованного изображения, поста, ретвита или лайка создается ряд выхлопных данных: кто поделился, кто просмотрел, какое устройство использовалось, чье устройство использовалось, в какое время суток, сколько людей просматривали / поставили лайк / ретвитнули и т. д. Точно так же основная цель сайта Amazon – дать возможность пользователям совершать покупки. Но это не мешает каждой покупке генерировать выхлопные данные: какие товары пользователь добавил в корзину, сколько времени он провел на сайте, какие другие товары он просматривал и т. д.

Одним из наиболее распространенных типов выхлопных данных являются метаданные, т. е. данные, описывающие другие данные. Когда Эдвард Сноуден опубликовал документы АНБ, касающиеся программы тотальной слежки PRISM, он также сообщил, что агентство собирало большое количество метаданных о телефонных звонках людей. Это значит, что АНБ фактически не записывало их содержание (т. е. не вело прослушивания телефонных разговоров), но собирало данные о звонках, например когда был сделан звонок, кому, как долго длился и т. д.[31]31
Pomerantz, Jeffrey. 2015. Metadata. The MIT Press Essential Knowledge Series. https://mitpress.mit.edu/books/metadata-0.

[Закрыть]. Этот тип сбора данных может показаться не столь зловещим, но исследовательский проект MetaPhone, проведенный в Стэнфорде, обнаружил, что метаданные телефонного звонка могут раскрыть большой объем личной информации[32]32
Mayer, Jonathan, and Patrick Mutchler. 2014. “MetaPhone: The Sensitivity of Telephone Metadata.” Web Policy. http://webpolicy.org/2014/03/12/metaphone-the-sensitivity-oftelephone-metadata/.

[Закрыть]. Тот факт, что многие организации работают в узких сферах, позволяет относительно легко выявлять информацию о человеке на основе его телефонных звонков. Например, некоторые из участников исследования MetaPhone звонили «Анонимным алкоголикам», адвокатам по бракоразводным процессам и в медицинские клиники, специализирующиеся на венерических болезнях. О многом могут говорить и закономерности звонков. Вот два примера закономерностей, выявленных в ходе исследования и раскрывающих очень деликатную информацию:

«Участник А общался с несколькими местными группами поддержки людей, страдающих неврологическими заболеваниями, специализированной аптекой, службой лечения редких состояний и горячей линией лекарственного средства, применяемого исключительно для лечения рассеянного склероза… В течение трех недель участник B связывался с магазином товаров для ремонта, слесарем, продавцом оборудования для гидропоники и торговцем марихуаной[33]33
Mayer, Jonathan, and Patrick Mutchler. 2014. “MetaPhone: The Sensitivity of Telephone Metadata.” Web Policy. http://webpolicy.org/2014/03/12/metaphone-the-sensitivity-oftelephone-metadata/.

[Закрыть]».

Традиционно наука о данных была сосредоточена на получении собранных данных. Однако, как показывает исследование MetaPhone, выхлопные данные также могут быть использованы для выявления скрытого смысла. В последние годы выхлопные данные становятся все более и более полезными, особенно в области взаимодействия с клиентами, где связывание между собой различных наборов выхлопных данных может создать более широкий клиентский профиль, тем самым позволяя бизнесу точнее ориентировать свои услуги и маркетинг. Сегодня одним из факторов, стимулирующих развитие науки о данных, является признание современным бизнесом ценности выхлопных данных и их потенциала.

Данные накапливаются, мудрость – нет!

Цель науки о данных – использовать их, чтобы получить прозрение и понимание. Библия призывает нас к пониманию через мудрость: «Главное – мудрость: приобретай мудрость, и всем имением твоим приобретай разум» (Притч. 4:7). Этот совет разумен, но он ставит вопрос о том, как именно нужно искать мудрости. Следующие строки из стихотворения Т.С. Элиота «Камень» описывают иерархию мудрости, знаний и информации:

Где мудрость, которую мы потеряли в знанье?

Где знанье, которое мы потеряли в сведеньях?[34]34
Элиот Т. С. Полые люди. – СПб.: ООО «Издательский Дом «Кристалл»», 2000. (Б-ка мировой лит., Малая серия).

[Закрыть]

Иерархия Элиота отражает стандартную модель структурных отношений между мудростью, знаниями, информацией и данными, известную как пирамида DIKW (см. рис. 2). В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые, в свою очередь, предшествуют мудрости. Хотя порядок уровней в иерархии, как правило, не вызывает споров, различия между этими уровнями и процессы, необходимые для перехода от одного к другому, часто оспариваются. Но если посмотреть в широком смысле, то можно утверждать следующее:

● данные создаются с помощью абстракции или измерения мира;

● информация – это данные, которые были обработаны, структурированы или встроены в контекст таким образом, что стали значимы для людей;

● знание – это информация, которая была истолкована и понята таким образом, что появилась возможность действовать в соответствии с ней по необходимости;

● мудрость – это умение найти надлежащее применение знанию.

Последовательные операции в процессе обработки данных могут быть представлены аналогичной пирамидальной иерархией, где ширина пирамиды отображает объем данных, обрабатываемых на каждом уровне, и чем выше уровень, тем результаты действий более информативны для принятия решения. Рис. 3 иллюстрирует иерархию операций науки о данных, начиная с их сбора и генерации посредством предварительной обработки и агрегирования и заканчивая пониманием результатов, обнаружением закономерностей и созданием моделей с использованием машинного обучения для принятия решений в бизнес-контексте.