Текст книги "Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики"
Автор книги: Билл Фрэнкс
Жанр: Личные финансы, Бизнес-Книги
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 7 (всего у книги 29 страниц) [доступный отрывок для чтения: 10 страниц]
По мере того как организация расширяет ассортимент используемых данных и инструментов, она также должна сосредоточиться на поиске новых вопросов, которые следует задать, и новых способов задавать старые вопросы. Часто, найдя новый источник данных, люди сразу же задумываются о том, как бы его использовать в уже готовых решениях старых проблем. Однако в каждом случае наряду с этим подходом нужно рассматривать и два других, как показано на рис. 2.2.
Во-первых, необходимо посмотреть, какие совершенно новые и различные проблемы могут быть решены при помощи новой информации. Это кажется очевидным, однако люди с легкостью попадают в привычную колею и просто используют данные для решения обычных проблем. Организация должна сделать акцент на поиске новых возможностей для применения данных. Во-вторых, нужно попробовать найти новые, лучшие способы решения старых проблем. Для этого необходимо изучить проблемы, уже считающиеся преодоленными, и подумать, можно ли подойти к ним совсем с другой стороны за счет внедрения новых данных. Это позволит глубже вникнуть в проблему{16}16
На основе статьи в моем блоге для Международного института аналитики от 14 марта 2013 г., озаглавленной «Думайте иначе, чтобы максимизировать ценность аналитики больших данных» (“Think Differently to Maximize Value from Big Data Analytics”). См. http://iianalytics.com/2013/03/think‐differently‐to‐maximize‐value‐from‐bigdata‐analytics/
[Закрыть].
Одной из полезных концепций для осуществления подобной деятельности в контексте клиентских данных является стратегия динамического управления отношениями с клиентами, описанная Джеффом Тэннером в книге «Стратегия динамического управления отношениями с клиентами: Большая прибыль от больших данных» (Dynamic Customer Strategy: Big Profits from Big Data){17}17
Jeff Tanner, Dynamic Customer Strategy: Big Profits from Big Data (Hoboken, NJ: John Wiley & Sons, 2014).
[Закрыть]. Она может послужить хорошим подспорьем для читателей, интересующихся заявленной темой.
С тем, как искать новые проблемы, должно быть все понятно, поэтому давайте рассмотрим пример того, как можно использовать большие данные для поиска новых способов решения старых проблем. В сфере здравоохранения клинические испытания служат золотым стандартом, а в их составе заключительный тест и управляющая конструкция выполняются посредством так называемого двойного слепого метода, когда ни пациенты, ни врачи не знают, кто какое лечение получает. Это исследование проводится в строго контролируемых условиях и позволяет с высокой точностью определить положительные и отрицательные эффекты тестируемых процедуры или препарата. Однако, после того как на их разработку были потрачены сотни миллионов долларов и многие годы исследований, клинические испытания в лучшем случае охватывают от 2000 до 3000 человек. Такой размер выборки недостаточен. И это означает, что хотя клинические испытания позволяют очень точно измерить показатели согласно пожеланиям исследователей, но попросту не хватит данных для того, чтобы выявить весь спектр непредвиденных последствий.
К чему ведет такая ограниченность выборки? К ситуациям наподобие тех, что случились несколько лет назад, когда применение многих препаратов-анальгетиков из класса ингибиторов ЦОГ-2, в том числе Vioxx и Celebrex, обернулось неприятностями. Исследователи обнаружили, что эти препараты в два – четыре раза повышают вероятность развития сердечных заболеваний по сравнению с нормой{18}18
См.: “Pfizer Study Finds that Celebrex May Increase the Risk of Heart Attack”, 10 августа 2010 г, на www.drugrecalls.com/celebrex.html
[Закрыть]. А ведь проблема не была выявлена в ходе первоначальных клинических испытаний, и прошло несколько лет после выведения препаратов на рынок, прежде чем ее определили.
Взгляните по-новому на проблемы, которые считаете уже решенными
Когда вы находите новые данные, содержащие новую информацию, обязательно вернитесь к былым проблемам. Довольно часто оказывается, что проблему, уже считающуюся решенной, можно решить гораздо эффективнее, если использовать новую информацию и подойти к проблеме с другой стороны.
Теперь давайте перенесемся немного вперед. Можем ли мы повысить точность клинических испытаний при помощи больших данных, даже если они собираются за пределами контролируемой среды? В ближайшем будущем детальная электронная медицинская документация станет нормой. Благодаря этому после выпуска препарата на рынок можно будет отслеживать его действие на тысячах, сотнях тысяч или миллионах людей, которые начнут его использовать. А также проанализировать действие препарата при любых комбинациях болезней, которыми страдают использующие его пациенты, и в комбинациях с любыми другими препаратами и методами лечения, применяемыми одновременно с ним. Люди же, использующие препарат не по назначению и наряду с противопоказанными лекарствами, останутся за рамками клинических испытаний.
Использование электронных историй болезней позволит выявлять непредвиденные положительные и отрицательные эффекты препарата (разумеется, при сохранении конфиденциальности сведений о пациентах). Несмотря на то что эти данные будут поступать не из строго контролируемой среды, как при клинических испытаниях, они позволят намного раньше обнаруживать скрытые проблемы наподобие сердечных осложнений при использовании Vioxx. Чтобы подтвердить эти аналитические результаты, могут потребоваться контролируемые исследования, зато можно будет гораздо быстрее обнаружить источник проблем. Речь идет не о том, чтобы заменить клинические испытания анализом неконтролируемых медицинских данных, а о том, что использование этих данных способно помочь исследователям выявлять непредвиденные положительные и отрицательные эффекты препаратов и намного улучшать методы лечения. Всего-то и требуется задуматься о том, как по-иному подойти к решению проблем… Даже если сегодня они считаются уже решенными.
Внедрение больших данных требует от организации изменения подходов к тому, как она собирает данные, хранит их и настолько долго. До недавнего времени было слишком дорого тратиться на что-то иное, кроме хранения самых важных данных. Если данные были достаточно важными для того, чтобы их собирать, значит, они были достаточно важными и для того, чтобы хранить их очень долго, если не бессрочно. Учитывая сегодняшнее изобилие источников больших данных, организации должны отказаться и от двоичного выбора «собирать или не собирать», и от бессрочного хранения собранного. Теперь необходимы многовекторные решения.
Во-первых, необходимо ли выбирать все части из источника данных или только отдельные части? Во-вторых, какие данные и на протяжении какого времени должны храниться? Возможно, потребуется лишь малая доля и хранить ее надо будет недолго, а потом удалить. Определение правильного подхода требует сначала определения ценности данных на сегодняшний день и в перспективе.
Чтобы наглядно проиллюстрировать, какие данные не нужно собирать, приведу вам следующий пример. Представьте себе современный умный дом, оснащенный массой всевозможных датчиков. В каждой комнате имеется свой термостат, который постоянно посылает данные о текущей температуре в центральную систему для того, чтобы поддерживать в комнатах постоянную температуру. В процессе взаимодействия термостатов с центральной системой генерируется непрерывный поток данных, но имеют ли они ценность? Эти данные необходимы для выполнения конкретной тактической задачи, но трудно представить, для чего бы они могли потребоваться спустя долгое время. Показания с разрывом в миллисекунду нужны только для выполнения главной задачи – обновления сведений в системе. Если же энергетическая компания будет скрупулезно собирать и хранить такие данные, поступающие из всех обслуживаемых ею домов и зданий, она переполнит свои хранилища данных и не создаст ничего ценного.
Для сокращения данных можно прибегнуть к аналитике. Сокращение данных – это процесс идентификации тех их областей, которые можно проигнорировать или же скомбинировать, чтобы уменьшить количество используемых метрик при небольшой потере информации. Например, если установлено, что температура в смежных комнатах вашего дома всегда отличается не более чем на полградуса, то можно собирать данные не для каждой комнаты, а только для одной и экстраполировать их на соответствующую зону внутри дома. Это позволит значительно сократить хранимые объемы данных без снижения качества информации, доступной для аналитики.
Установите сроки хранения данных
Сейчас происходит масштабное изменение точки зрения на хранение данных. Утверждается правило их удаления по истечении определенного периода времени. Организация должна определить временну́ю ценность данных. Некоторые пригодны только для немедленного применения, другие будут терять свою ценность постепенно. Только небольшую долю данных стоит хранить долго, в отличие от стандартной сегодняшней практики.
Давайте рассмотрим сценарий, когда данные остаются крайне важными только на протяжении определенного периода времени. Железнодорожники устанавливают на рельсах датчики для измерения скорости проходящих поездов. Недавно я узнал, что они также измеряют температуру вагонных колес. Если груз в вагоне несбалансирован и смещается в одну сторону, то вагон начинает перекашиваться. С этой стороны давление груза возрастает, что увеличивает трение, которое, в свою очередь, ведет к большему нагреванию колес. Когда они нагреваются выше определенной температуры, индикатор указывает на серьезный дисбаланс и возможный сход вагона с рельсов. Железнодорожники отслеживают температуру колес в режиме реального времени, когда поезд движется. При нагревании колесной пары выше установленного уровня поезд останавливается и к нему направляется бригада рабочих, чтобы проинспектировать состояние вагона и зафиксировать груз. Это экономит железнодорожным компаниям в перспективе массу денег, поскольку сход состава с рельсов обернется дорогостоящей, а подчас и смертоносной катастрофой.
Теперь обратимся к данным о температуре колес и подумаем, на протяжении какого времени они сохраняют свою ценность. Предположим, что состав должен проехать более 3000 километров за несколько дней. Датчики измеряют температуру колес, скажем, с регулярностью в 30 секунд. Крайне важно собирать и анализировать эти данные в режиме реального времени, чтобы немедленно выявлять возможные проблемы.
Далее перенесемся на пару недель вперед. Поезд благополучно прибыл к месту назначения. Все показатели температуры колес находились в пределах полуградуса от нормы. Дальше хранить эти данные не имеет смысла. Возможно, имеет смысл сохранить выборку данных по нескольким благополучным рейсам, чтобы использовать ее для сравнения с отклонениями от нормы. В то же время данные по рейсам, когда возникали проблемы с температурой колес, могут храниться практически бессрочно наряду с небольшой выборкой по благополучным рейсам. Прочие данные никакой ценности не представляют.
Разумеется, существуют данные, которые имеет смысл хранить очень долго. Банки и брокерские дома могут поддерживать отношения с клиентами на протяжении нескольких последних лет и даже десятилетий. Для них важно хранить информацию о каждом вкладе, сделанном каждым клиентом, и о каждом обмене имейлами опять-таки с каждым клиентом. Это позволяет им улучшить качество обслуживания с течением времени, а также обеспечить себе правовую защиту. В этом случае собираемые данные также хранятся практически вечно, как и было заведено при традиционном подходе.
Итак, ключевое положение этого раздела состоит в том, что организации должны изменить свои подходы к сбору, накоплению и хранению данных. Поначалу вам может быть некомфортно от мысли о том, что некие данные вы упускаете и сознательно удаляете уже собранные. Но в эпоху больших данных делать это необходимо.
Концепция Интернета вещей неуклонно привлекала все больше внимания в 2013-м и начале 2014 г. Речь идет обо всех «вещах», работающих онлайн и взаимодействующих друг с другом и с нами. По мере того как датчики и коммуникационные технологии дешевеют, всё больше вещей становятся «умными», приобретая способность оценивать обстановку и передавать информацию. Уже обыденными стали подключенные к Интернету холодильники и часы, которые регулярно отправляют и получают информацию.
Интернет вещей способен порождать огромные массивы данных. В этом он даже может опередить все остальные источники больших данных. Примечательно, что значительная часть генерируемых им данных нередко носит чисто функциональный характер. Любая коммуникация длится очень недолго и может содержать только упрощенную информацию. Например, часы могут получать информацию об обновлении времени из надежного внешнего источника, а затем передавать ее другим часам в домашней сети. В совокупности это создает обширный объем данных, но в большинстве своем у них крайне низкая ценность и крайне короткий срок пригодности.
Многие примеры, описанные в этой книге, можно отнести к сфере Интернета вещей, скажем показания датчиков. Такие умные устройства, «разговаривающие» друг с другом, принесут благо и компаниям, и потребителям. По мере того как все больше вещей вокруг нас приобретают способность сообщаться между собой, перед нами открываются новые возможности:
• Ваш дом изучит ваши предпочтения касательно освещения, отопления и т. п., а затем будет автоматически подстраивать эти функции для вас.
• Такие приборы, как лампочки и освежители воздуха, будут предупреждать вас о необходимости их скорой замены.
• Холодильники будут автоматически выдавать вам списки покупок, учитывая ваше потребление и сроки годности хранящихся продуктов.
• Видео– и аудиоконтент будет плавно следовать за вами из комнаты в комнату, избавляя вас от необходимости что-либо включать и выключать.
• Датчики на вашем теле или рядом с ним будут отслеживать ваш режим сна, потребление калорий, температуру тела и сообщать эти и массу других всевозможных показателей.
Наши вещи могут стать крупнейшим источником персональных данных
Интернет вещей надвигается с быстрой скоростью. Недолго осталось ждать того времени, когда многие из наших личных вещей, больших и малых, будут обладать датчиками и способностью к сообщению. Объемы данных, генерируемых нашими вещами, превзойдут все персональные данные, что мы собираем сегодня. Личные фотографии и видео будут составлять лишь малую долю в общем объеме всех сообщений, отправляемых нашими вещами.
В то время как Интернет вещей будет производить, возможно, один из самых больших объемов данных, последние, вероятно, будут фильтроваться гораздо жестче по сравнению с другими данными. В результате объем, который мы решим оставить, может быть вполне управляемым. Мы позволим всем нашим вещам свободно сообщаться на постоянной основе, а отлавливать будем только самые важные части этого взаимодействия. Более подробно рассмотрим эту концепцию в шестой главе.
Вскоре Интернет вещей станет очень горячей и популярной темой. Я не могу уделить ей того должного внимания, которого она заслуживает. Но, как это произошло и с феноменом больших данных, вскоре в изобилии появятся книги и статьи, посвященные Интернету вещей. Заинтересованные читатели должны внимательно следить за развитием этого тренда. Как свидетельствуют многие из примеров, использованных в книге, операционная аналитика во множестве будет опираться на данные, поставляемые из окружающих нас вещей. Тогда Интернет вещей станет компонентом аналитической стратегии практически каждой организации.
Помещаем большие данные в правильный контекстКак большие данные вписываются в общую картину? В чем их специфика? Что будет с ними дальше? Эти типичные вопросы возникают у большинства организаций. Как и в любой другой относительно новой области, возникает немало путаницы и разногласий по поводу того, чем являются большие данные на самом деле. В этом разделе мы рассмотрим ряд тем и концепций, которые следует усвоить, чтобы поместить большие данные в правильный контекст. Это позволит гораздо эффективнее включить их в процессы операционной аналитики и добиться успеха.
Как мы уже отмечали ранее в этой главе, именно новая информация, которую содержат большие данные, делает их такими захватывающими. И также отмечали, что многие люди считают, будто сложность в управлении большими данными проистекает из их объема. Но отнюдь не объемом выделяются многие источники больших данных. Часто главная сложность связана с тем, что новая информация обнаруживается в данных разного типа или формата и может потребовать различных аналитических методологий.
Большинство данных, собиравшихся ранее для анализа в мире бизнеса, носили деловой или описательный характер и были хорошо структурированы. Это значит, что информация в них была представлена в четко установленной и легко читаемой форме. Например, колонка под названием «Продажи» в электронной таблице содержала только суммы в долларах. Менее структурированные данные, такие как письменные документы или изображения, считались непригодными для целей анализа. Сейчас, в эпоху больших данных, организации сталкиваются с новыми типами и форматами данных, многие из которых структурированы не так, как традиционные источники. Датчики выдают информацию в специальных форматах. Данные GPS устанавливают местонахождение людей и вещей в пространстве. Часто возникает необходимость определить, насколько крепки взаимоотношения между людьми или организациями. Все это принципиально разные типы данных в плане как формата, так и способов их анализа. О различных типах анализа мы поговорим в седьмой главе.
Главная сложность не в объеме, а в разнообразии
Несмотря на то что основное внимание привлекает «громадность» больших данных, зачастую реальную сложность представляет их разнообразие. Существует множество новых источников данных во множестве новых форматов, содержащих новые типы информации. Определить, как извлечь из этого разнообразия нужную информацию, может потребовать больше усилий, чем определить, как масштабировать аналитические процессы.
Анализ социальной сети с определением количества и крепости связей между ее подписчиками требует совершенно других методологий, чем, скажем, прогнозирование продаж. Подобное разнообразие больших данных представляет собой куда больший вызов, чем их «громадность». В чем заключается сложность? Давайте посмотрим на примере.
Предположим, что организация впервые решает запустить текстовый анализ сообщений по электронной почте. Даже для того чтобы проанализировать всего несколько тысяч имейлов, потребуется приобрести специальное программное обеспечение, установить его и настроить, а также определить желательную для организации логику анализа. Создание процесса текстового анализа для 10 000 писем потребует столько же времени и усилий, как и для 10 млн или 100 млн. Будет применяться одна и та же логика, только увеличится масштаб. Поскольку текст представляет собой иной тип данных, придется проделать много подготовительной работы, чтобы запустить анализ даже очень малого объема текстовых данных.
Разумеется, при выполнении аналитического процесса 10 000 имейлов будут обработаны быстрее, чем 100 млн. Несмотря на то что увеличение объема требует масштабирования процесса, лежащая в его основе логическая схема анализа остается прежней. Поэтому первым делом нужно решить, как управлять разнообразием источника больших данных. А затем решить, как управлять разнообразием при масштабировании.
Главное внимание при работе с большими данными обычно уделяется проблеме масштабирования. Если конкретнее, то количеству данных и объему требуемой обработки. Между тем нужно учитывать и другие параметры масштабирования в том случае, если организация решает внедрить аналитику на уровне всего предприятия и особенно если решает превратить ее в операционную. Эти аспекты проиллюстрированы на рис. 2.3 и 2.4.
Во-первых, необходимо произвести масштабирование касательно количества и разнообразия пользователей, имеющих доступ как к исходным данным, так и к результатам основанных на них аналитических процессов. Десяткам и сотням тысяч сотрудников может потребоваться в любое время ознакомиться в разных аспектах с первичными данными и результатами их анализа. Корпоративные платформы должны быть дружественными к пользователям и совместимыми с широким спектром инструментов и приложений.
Масштабирование касается не только хранения и обработки
Основное внимание при внедрении больших данных, как правило, уделяется возможностям масштабирования хранения и обработки данных. При этом часто упускаются из виду другие важные параметры, которые также требуют масштабирования, такие как количество пользователей, уровень параллелизма, управление рабочей нагрузкой и протоколы безопасности. Если системы не будут масштабированы по всем перечисленным параметрам, организации не удастся добиться успеха в операционной аналитике.
Во-вторых, крайне важно произвести масштабирование такого параметра, как параллелизм. Под ним понимается количество пользователей или приложений, которые одновременно могут получить доступ к определенному набору информации. Также параллелизм на уровне предприятия означает, что по мере изменения данных все пользователи получают согласованные ответы на свои запросы. По мере роста параллелизма значительно возрастает и риск того, что система перестанет справляться с обработкой запросов. Следовательно, если крупная организация решает внедрить у себя операционно-аналитические процессы, она должна создать такую среду, где множество разных пользователей и приложений могут одновременно взаимодействовать с одной и той же информацией.
В-третьих, существует потребность в масштабировании инструментов управления рабочей нагрузкой. Когда различные типы пользователей подают широкий спектр запросов на анализ да еще и на защищенном уровне, необходимо наладить управление рабочей нагрузкой. Сбалансировать разом множество запросов – не такая простая задача, как кажется, однако этот аспект масштабирования легко упустить из виду. Очень нелегко создать систему, которая способна эффективно управлять как незначительными тактическими, так и крупными стратегическими запросами.
Наконец, нужно масштабировать и протоколы безопасности. Организация при необходимости должна быть способна контролировать и блокировать доступ к данным. Пользователям предоставляются только те части данных, которые им позволяется видеть. Крупная организация должна встроить надежные протоколы безопасности во все свои платформы.
Все перечисленные параметры масштабирования – данные, обработка, пользователи, параллелизм, управление рабочей нагрузкой и безопасность – должны присутствовать с самого начала, если организация хочет добиться успеха в операционной аналитике. И потерпят неудачу те, кто заботится только о масштабировании хранения и обработки данных.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?