Текст книги "Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики"
Автор книги: Билл Фрэнкс
Жанр: Зарубежная деловая литература, Бизнес-Книги
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 3 (всего у книги 28 страниц) [доступный отрывок для чтения: 9 страниц]
Многие организации пока мало используют большие данные. На ваше счастье, если вы до сих пор игнорировали большие данные, в 2012 году ваша организация не слишком отстала от остальных (если только вы не относитесь к таким отраслям, как электронная коммерция, – анализ больших данных уже стал неотъемлемой частью этой сферы). Однако скоро все изменится, поскольку развитие этого направления быстро набирает скорость. До сих пор большинство организаций упускали возможность оказаться впереди всех, и для многих из них это вполне нормально. В настоящее время еще есть шанс опередить остальных. Через несколько лет любая организация, которая не занимается анализом больших данных, безнадежно отстанет. Осваивать большие данные необходимо уже сейчас.
Нечасто компании удается воспользоваться совершенно новыми источниками данных, чтобы извлечь из них пользу для своего бизнеса, пока конкуренты не сделали то же самое. Такую возможность предоставляют сегодня большие данные. У вас есть шанс опередить своих конкурентов. В ближайшие годы мы увидим множество примеров того, как с помощью анализа больших данных компании полностью трансформируют себя; как конкуренты были застигнуты врасплох и остались далеко позади. Речь идет не только о таких модных новых индустриях, как электронная коммерция. Уже сейчас в публикациях, на конференциях и в других источниках приводятся убедительные примеры прорыва, в том числе компаний, работающих в скучных, старых и тяжеловесных отраслях. Мы расскажем об этом в главах 2 и 3.
Время пришло!
Ваша организация должна начать процесс освоения больших данных уже сейчас. Пока что, если вы до сих пор игнорировали большие данные, то лишь упустили возможность быть в авангарде. Сегодня вы еще можете оказаться впереди всех. А если будете оставаться в стороне, через несколько лет окажетесь далеко позади. Если ваша организация уже занимается сбором данных и использует анализ в процессе принятия решений, то переход к большим данным не будет проблемой. Это просто расширение той деятельности, которой вы занимаетесь сегодня.
Фактически решение об использовании больших данных не должно стать проблемой. Большинство организаций уже подходят к сбору и анализу данных как к одной из основных частей своей стратегии. Хранилища данных, отчетность и анализ используются повсеместно. Если организация понимает, что данные представляют собой ценность, работа с большими данными будет лишь расширением ее деятельности. Не позволяйте скептикам убедить вас в том, что исследование больших данных не стоит затраченных усилий, или что их ценность еще не доказана, или что это слишком рискованно. Те же самые доводы помешали бы прогрессу, достигнутому за последние несколько десятилетий в области анализа данных. Обратите внимание сомневающихся на то, что работа с большими данными – это лишь продолжение того, что организация уже делает. Большие данные не представляют собой чего-то принципиально нового, и их не следует бояться.
Структура больших данныхВ этой книге часто говорится о том, что данные могут быть структурированными, неструктурированными, полуструктурированными или даже мультиструктурированными. Большие данные нередко описываются как неструктурированные, а традиционные данные – как структурированные. Однако границы между ними не столь ясны, как можно понять из названия. Рассмотрим три типа структуры данных с точки зрения неспециалиста. Технические детали выходят за рамки данной книги.
Большая часть традиционных источников данных – полностью структурированные. Это означает, что традиционные источники предоставляют данные в четко предопределенном формате. Он не меняется день ото дня или в зависимости от обновления. В случае торговли акциями в первом поле может указываться дата в формате ДД/ММ/ГГГГ. Далее может идти 12-значный номер счета. Затем может быть указан символ акции, состоящий из трех-пяти знаков. И т. д. Каждый фрагмент используемой информации известен заранее, представлен в определенном формате и подчинен определенному порядку. Это облегчает работу.
Источники неструктурированных данных – а к ним относятся текстовые данные, видео– и аудиоданные – вы не можете контролировать. Вы получаете то, что получаете. Изображение подразумевает такой формат, при котором отдельные пикселы располагаются в строках, однако их взаимное расположение, определяющее то, что видит зритель, существенно различается в каждом конкретном случае. Приведенные примеры источников больших данных относятся к совершенно неструктурированным. Однако значительная часть данных относится к категории полуструктурированных.
Полуструктурированные данные подразумевают логическую схему и формат, который может быть понятным, но недружественным к пользователю. Иногда полуструктурированные данные называются мультиструктурированными. В потоке таких данных кроме ценных фрагментов информации может присутствовать множество ненужных и бесполезных данных. Чтение полуструктурированных данных с целью их анализа вовсе не так же просто, как файла определенного формата. Чтобы прочитать полуструктурированные данные, необходимо использовать сложные правила, которые динамически определяют, что следует делать после чтения каждого фрагмента информации.
Логи, собираемые в журнальных файлах, – прекрасный пример полуструктурированных данных. Они выглядят довольно уродливо, однако каждый фрагмент информации служит определенной цели. Служит ли любой из фрагментов журнала именно вашей цели – это совсем другой вопрос. На рис. 1.1 изображен пример необработанных данных интернет-журнала.
Рис. 1.1. Пример необработанных данных интернет-журнала
Какую структуру имеют ваши большие данные?
Многие источники больших данных на самом деле являются полуструктурированными или мультиструктурированными, а не совсем неструктурированными. Такие данные подразумевают логическую схему, которая позволяет извлечь информацию для анализа. С ними просто сложнее работать, чем с традиционными источниками структурированных данных. Использование полуструктурированных данных требует дополнительного времени и усилий для того, чтобы определить наилучший способ их обработки.
Хотя на первый взгляд может показаться иначе, данные интернет-журнала подчинены определенной логике. В них присутствуют поля, разделители и значения, как и в структурированном источнике. При этом они не согласованы друг с другом и не представляют собой набор. Текст журнала, сгенерированный только что щелчком кнопкой мыши на сайте, может быть длиннее или короче, чем текст, сгенерированный щелчком кнопкой мыши на другой странице минуту назад. И все-таки необходимо понять, что полуструктурированные данные не лишены логики. Вполне возможно найти взаимосвязь между различными их фрагментами – просто это потребует больше усилий, чем в случае со структурированными данными.
Профессиональных аналитиков больше тревожат неструктурированные данные, чем полуструктурированные. Возможно, им придется побороться с полуструктурированными данными, чтобы подчинить их своей воле, но они это сделают. Они смогут привести полуструктурированные данные в хорошо структурированную форму и включить в свои аналитические процессы. По-настоящему неструктурированные данные приручить гораздо сложнее, и это будет оставаться головной болью для организаций по мере того, как они будут учиться справляться с полуструктурированными данными.
Исследование больших данныхНачать работу с большими данными несложно. Просто соберите их и поручите команде аналитиков вашей организации разобраться в том, чем они могут быть вам полезны. Для начала не понадобится обеспечивать постоянный поток данных. Все, что вам нужно, – это позволить аналитической команде применить свои инструменты и подходы к некоторому набору данных, чтобы они могли начать процесс исследования. Это именно то, чем занимаются аналитики и ученые в области науки о данных.
Существует старое правило: 70–80 % времени уходит на сбор и подготовку данных и только 20–30 % – на их анализ. В начале работы с большими данными можно ожидать более низких значений. Вероятно, в самом начале аналитики будут тратить 95 %, если не все 100 %, времени только на то, чтобы разобраться в источнике данных, прежде чем они смогут решить, как его следует анализировать.
Важно понимать, что это нормально. Выяснение того, что собой представляет источник данных, – важная часть процесса анализа. Это, может быть, и скучновато, однако итеративная загрузка данных[4]4
Итеративная загрузка данных (от англ. iteration – повторение) – выполнение загрузки данных параллельно с непрерывным анализом полученных результатов и корректировкой предыдущих этапов работы. Прим. ред.
[Закрыть], изучение того, как они выглядят, а также настройка процесса загрузки с целью более точного извлечения нужных данных критически важны. Без выполнения этих действий невозможно перейти к самому процессу анализа.
Приносите пользу по ходу дела
Чтобы решить, как использовать источник больших данных на благо своего бизнеса, придется потратить немало усилий. Аналитики и их работодатели должны подумать, как обеспечить небольшие быстрые достижения. Это продемонстрирует организации прогресс и обеспечит поддержку дальнейших действий. Такие достижения могут генерировать солидную отдачу от инвестиций.
Процесс выявления ценных фрагментов больших данных и определение наилучшего способа их извлечения имеют решающее значение. Будьте готовы к тому, что на это понадобится время, и не расстраивайтесь, если его потребуется больше, чем вы ожидали. По мере изучения новых источников больших данных специалисты и их работодатели должны искать способы достижения небольших и быстрых побед. Если вы обнаружите хоть что-то ценное, это поддержит заинтересованность людей и продемонстрирует прогресс. Например, кросс-функциональная команда не может приступить к делу, а год спустя утверждает, что по-прежнему не может ничего сделать с большими данными. Необходимо придумать хоть что-то, и сделать это нужно быстро.
Вот отличный пример. Европейский розничный магазин. Компания решила начать использовать подробные данные интернет-журналов. При создании сложных долгосрочных процессов сбора данных они сначала наладили несколько простых процессов для определения того, какие товары просматривает каждый посетитель. Информация о просмотренных страницах была использована в качестве основы для последующей кампании, в рамках которой каждому посетителю, покинувшему сайт без совершения покупки, высылалось электронное письмо. Это простое действие принесло организации значительную прибыль.
Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!
Большая часть больших данных не имеет значенияДело в том, что большая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Большая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.
В потоке больших данных есть информация, которая имеет долгосрочное стратегическое значение; некоторые данные пригодны только для немедленного и тактического использования, а часть данных вообще бесполезна. Самое главное в процессе укрощения больших данных – определить, какие фрагменты относятся к той или иной категории.
Примером могут служить метки радиочастотной идентификации (RFID), речь о которых пойдет в главе 3. Они размещаются на палетах с товарами в процессе их перевозки; если это дорогие товары, метками помечают каждый из них. Со временем станет правилом помечать метками отдельные товары. Сегодня в большинстве случаев это связано с большими затратами, поэтому метки ставятся на каждой палете. Такие метки упрощают процесс отслеживания местоположения палет, позволяют определить, где они загружаются, разгружаются и хранятся.
Представьте себе склад с десятками тысяч палет. На каждом из них находится RFID-метка. Каждые 10 секунд считывающие устройства опрашивают склад: «Кто здесь?» Каждая палета отвечает: «Я здесь». Посмотрим, как в этом случае можно использовать большие данные.
Палета прибывает сегодня и сообщает: «Это палета 123456789. Я здесь». Каждые 10 секунд в течение следующих трех недель, пока находится на складе, палета будет снова и снова сообщать: «Я здесь. Я здесь. Я здесь». По завершении каждого опроса следует проанализировать все ответы на предмет изменения статуса палеты. Таким образом, можно подтвердить то, что изменения были ожидаемыми, и принять меры, если палета неожиданно изменила статус.
После того как палета покинула склад, она больше не отвечает на запрос считывающего устройства. После подтверждения того, что отбытие палеты было ожидаемым, все промежуточные записи с ответом «я здесь» не имеют значения. По-настоящему важны только дата и время появления палеты на складе, а также дата и время ее отбытия. Если между этими датами прошло три недели, то имеет смысл сохранить только две временные метки, связанные с прибытием и отбытием палеты. Ответы, полученные с интервалом в 10 секунд, говорящие: «Я здесь. Я здесь. Я здесь», не имеют какой-либо долгосрочной ценности, однако собрать их было необходимо. Необходимо было проанализировать каждый ответ в момент его создания, однако долгосрочной ценности они не имеют, поэтому их спокойно можно удалить после отбытия палеты.
Будьте готовы отбросить данные
Одна из главных задач при укрощении больших данных – определить фрагменты, которые имеют ценность. Большие данные содержат информацию, пригодную для долгосрочного стратегического применения; данные, которые могут использоваться в краткосрочной перспективе, а также данные, которые вообще ничего не значат. Удаление множества данных может показаться странным, однако при работе с большими данными это в порядке вещей. Вам потребуется время, чтобы к этому привыкнуть.
Если необработанные большие данные можно сохранить в течение некоторого периода, это позволит вернуться к ним и извлечь дополнительные данные, пропущенные при первоначальной обработке. Хороший пример такого подхода – процесс отслеживания веб-активности. Большинство сайтов используют метод, основанный на тегах: необходимо заранее определить текст, изображения или ссылки, взаимодействие пользователей с которыми требуется отслеживать. Теги, которые не видны пользователю, сообщают о его действиях. Поскольку данные поступают только об элементах, содержащих тег, большая часть информации не учитывается. Проблема может возникнуть, если по каким-то причинам не выполняется запрос на тегирование нового рекламного изображения, в результате чего упускается возможность проанализировать взаимодействие с ним. Это изображение должно быть помечено тегом, прежде чем пользователь его увидит. Можно добавить тег и позже, однако в этом случае собираться будут только данные, полученные после добавления тега.
Существуют новые методики, позволяющие проанализировать необработанные данные интернет-журналов и определить события, которые не были предопределены заранее. Эти методы основаны на использовании содержимого журнала, поскольку они опираются на непосредственно содержащиеся в них необработанные данные. Преимущество этих методов в том, что если вы забыли собрать данные о взаимодействии пользователей с рекламным изображением, то можете позднее вернуться и извлечь необходимую информацию. В этом случае ничего изначально не отбрасывается, а нужные данные определяются в процессе анализа. Это важное преимущество, и именно поэтому хранение некоторого объема архивных больших данных, если оно оправдано с экономической точки зрения, имеет смысл. Объем архивных данных зависит от размера канала и от доступного пространства для хранения данных. Хорошая идея – хранить такой объем архивных данных, который экономически оправдан с учетом доступного объема хранилища.
Эффективная фильтрация больших данныхСамая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL – это процесс сбора необработанных данных, их чтения и получения полезных выходных данных. Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс.
Вернемся к нашему примеру. Когда вы пьете воду из шланга, вам все равно, какая часть потока воды попадет в рот. В случае с большими данными, напротив, очень важно, какие части потока данных будут собраны. Сначала вам потребуется изучить весь поток данных, и только после этого можно отфильтровать нужные вам фрагменты информации. Вот почему процесс укрощения больших данных может занять так много времени.
Как попить из шланга
Работу с большими данными можно сравнить с попыткой попить из шланга. Большая часть данных будет пропущена, как и большая часть воды. Цель в том, чтобы отхлебнуть нужное количество данных из потока, а не выпить его полностью. Если вы сосредоточитесь на важных фрагментах данных, то работать с большими данными будет проще.
Аналитические процессы могут потребовать наличия фильтров, чтобы при получении данных отбросить часть информации. По мере обработки данных будут применяться и другие фильтры. Например, при работе с данными интернет-журнала можно отфильтровать информацию о версии браузера или операционной системы. Такие данные редко бывают нужны. Позднее в процессе обработки можно отфильтровать данные о конкретных страницах или действиях пользователя, которые можно исследовать для решения бизнес-задач.
Сложность правил и объем отфильтрованных или сохраненных на каждом этапе данных зависят от источника данных и бизнес-задачи. Для достижения успеха решающее значение имеют правильные процессы загрузки и фильтры. Традиционные структурированные данные не требуют таких усилий, поскольку они заранее исследованы и стандартизированы. Большие данные часто приходится исследовать и стандартизировать в процессе анализа.
Объединение больших данных с традиционными данными
Вероятно, наибольший интерес представляет даже не то, что большие данные могут сделать для вашего бизнеса сами по себе, а то, что они могут сделать для бизнеса в сочетании с другими данными организации.
Так, например, мощный источник данных – история посещения веб-страниц. Информация о важности потребителя для организации и о покупках, совершенных им ранее через различные каналы, повышает ценность веб-данных, если их поместить в более широкий контекст. Мы поговорим об этом подробнее в главе 2.
Для предприятия коммунального обслуживания чрезвычайно значимы данные интеллектуальных сетей (Smart Grid). Знание закономерностей, связанных с оплатой счетов, типов жилищ потребителей и других факторов, делает данные, полученные от интеллектуальных счетчиков, еще более ценными. Об этом говорится в главе 3.
Текст электронной переписки с отделом обслуживания клиентов также ценный источник данных. Знание подробных спецификаций обсуждаемых товаров, информации о продажах и дефектах повышает важность этих текстовых данных. Об этом речь пойдет в главах 3 и 6.
Своей популярностью хранилища данных предприятия (EDW) по большей части обязаны не тому, что они дают возможность централизовать многочисленные витрины данных в целях уменьшения затрат на оборудование и программное обеспечение. Хранилища данных создают ценность, так как с их помощью можно объединять различные источники данных, благодаря чему они дополняют друг друга. Хранилища данных позволяют совместно анализировать данные о потребителях и сотрудниках, поскольку они хранятся в одном и том же месте. Они больше не являются полностью разделенными. Например, правда ли, что одни сотрудники приносят компании больше дохода, чем другие? Ответить на такие вопросы гораздо легче, если данные хранятся в одном месте. Добавление больших данных увеличивает масштаб решаемых проблем, поскольку все больше новых типов данных могут быть объединены для обеспечения новых точек зрения и контекстов.
Комбинируйте!
Потенциал больших данных раскрывается в полной мере при взаимодействии с другими данными корпорации. Если включить итоги анализа больших данных в более широкий контекст, количество и качество полученных результатов стремительно возрастут. Вот почему большие данные должны быть частью общей стратегии работы с данными, а не отдельной стратегией, созданной специально для них.
Крайне важно, чтобы разработанная организацией стратегия работы с большими данными не отличалась от стратегии работы с традиционными данными. Это не приведет к нужному результату. Большие данные и традиционные данные – части общей стратегии. Большие данные должны быть еще одной гранью корпоративной стратегии работы с данными. С самого начала необходимо продумать и спланировать не только процессы сбора и анализа больших данных, но и то, как их использовать в сочетании с другими корпоративными данными, а также в качестве компонента целостного подхода к корпоративным данным.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?