Текст книги "Ключевые идеи книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман"
Автор книги: М. Иванов
Жанр: Зарубежная деловая литература, Бизнес-Книги
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 1 (всего у книги 2 страниц) [доступный отрывок для чтения: 1 страниц]
Краткое содержание книги: Просто о больших данных. Джудит Гурвиц, Алан Ньюджент, Ферн Халпер, Марсия Кауфман
Оригинальное название:
Big Data For Dummies
Авторы:
Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman
Правовую поддержку обеспечивает юридическая фирма AllMediaLaw
www.allmedialaw.ru
Кто владеет миром?
Кто владеет информацией, тот владеет миром. А если речь идет о целом океане информации? Этот океан ежедневно пополняется, изменяется, обновляется и устаревает, он содержит массу уникальных полезных сведений, и он относительно доступен. Но «видит око, да зуб неймет» – до недавнего времени принцип взаимодействия бизнеса с большими данными оставался примерно таким. Технологические возможности обработки Big Data не позволяли нормально структурировать и использовать в бизнес-целях столь колоссальные объемы информации.
Сейчас анализ больших данных стал неотъемлемым элементом работы компаний в самых разных сферах – от медицины до гостиничного бизнеса. При этом большие данные не единый рынок, а совокупность технологий управления информацией. И это не «еще одно хорошее решение, которое может оживить бизнес», – внедрение больших данных требует развитой инфраструктуры и четкого плана действий. Но игра стоит свеч: Big Data позволяет обеспечить максимальную эффективность и огромную экономию ресурсов: компании, идущие впереди, это доказали.
Как использовать потенциал Big Data на благо своему бизнесу? Саммари объясняет ключевые принципы работы с большими данными.
Что такое большие данные
Ежедневно мы производим огромное количество информации: посты в социальных сетях, отзывы на сайтах, фото– и видеозаписи, данные навигаторов, датчики оборудования… А распространение все более компактных и мощных мобильных устройств обещает, что в дальнейшем этот поток данных будет только увеличиваться. Мы уже научились искать нужную информацию в интернете, а вот анализировать разноплановые сведения из разных источников, да еще обращать этот анализ на пользу дела – навык будущего. Но работать над ним можно и нужно уже сегодня. Чрезвычайное разнообразие информации – и серьезная трудность, и серьезное преимущество.
Три ключевых параметра больших данных:
1) чрезвычайно большой объем;
2) чрезвычайно высокая скорость обработки;
3) чрезвычайное разнообразие.
Технология больших данных, которая сегодня выглядит столь современно и многообещающе, – не открытие последних лет, но результат полувекового развития принципов управления данными.
Как развивалась технология Big Data
Этап 1. Управляемые структуры. Технологии шагнули навстречу бизнесу в начале 1970-х, когда компания IBM занялась разработкой реляционных систем управления базами данных. Был разработан язык структурированных запросов (SQL) и специальные утилиты управления данными, позволившие кодировать информацию на высоком уровне абстракции (в таком виде работать с ней было гораздо проще). Однако хранение информации (а ее объем все увеличивался) и доступ к ней (по-прежнему медленный) оставались проблемой. Когда объем данных стало почти невозможно контролировать, программисты нашли выход, придумав хранилища данных. Их коммерческие версии появились в 1990-е годы и сразу стали востребованны: имея в хранилище данные за разные годы, компании лучше представляли свою работу, более гибко оперировали финансовой отчетностью, могли оценить перспективы. Следующим шагом стало создание объектно ориентированных[1]1
Объектно ориентированные системы управления базами данных – способ структурирования информации в базах данных в виде объектов, каждый из которых обладает определенными свойствами, состоянием и поведением. Объекты, обладающие одинаковыми свойствами, группируются в классы, а классы образуют иерархию наследования.
[Закрыть] систем управления, обеспечивших единый подход к работе с разнородными данными.
Этап 2. Управляемая сеть. Интернет 1990-х в разы увеличил количество контента. Теперь требовались платформы, которые бы объединили инструменты работы с текстами, видео– и аудиоматериалами, изображениями. Распознавание информации и управление неструктурированными данными становилось все более насущной задачей. И такие платформы появились, а с ними пришла идея метаданных (обычным пользователям они известны как теги). Мир становился все виртуальнее. А выгоды, которые обещал этот новый мир, были вполне реальными.
Этап 3. Управление большими данными. Еще несколько лет назад компании вынуждены были довольствоваться выборками интересующей их информации – хранение и обработка данных были слишком дороги. Это сужало стратегические возможности бизнеса и казалось не таким уж выгодным делом. В 2000–2010 годы хранение и обработка информации удешевились в разы: компьютерная память становится все совершеннее, облачные сервисы все популярнее, виртуализация бизнес-среды все шире. При этом прежние идеи типа хранилищ данных не устарели – большие данные не сводятся лишь к одному инструменту, работать с ними – значит использовать достижения всех этапов развития этих технологий.
Типы данных
Данные могут быть структурированными и неструктурированными.
Структурированные данные имеют определенную длину и формат. Даты сделок, имена и адреса клиентов, данные GPS, сведения штрихкода на кассе супермаркета – все это структурированные данные. Представим себе, сколько товаров ежедневно проходит через кассы всех магазинов в мире – дух захватывает от такого объема данных! Эти данные генерируются и тогда, когда мы проходим по ссылке на любой сайт. Они помогают представить потребительские привычки, предсказывают наше поведение.
Это самый древний вид данных: ведущие учет товаров месопотамские писцы тоже имели дело с именами и адресами клиентов.
Неструктурированные данные не имеют определенного формата. Метеоданные и результаты спутниковой фотосъемки, измерения сейсмоактивности, записи с камер наблюдения и результаты опросов, наконец, привычные электронные письма и все наши «цифровые следы» (соцсети, онлайн-покупки, штрафы за превышение скорости) – это неструктурированные данные.
В среднем 80 % данных любого предприятия – неструктурированные. Настоящий клондайк для предприимчивых бизнесменов, не так ли? Между тем до последнего времени не существовало технологий, которые бы помогали работать с этим типом данных. Их можно было лишь анализировать вручную. Тем самым пропадали колоссальные возможности.
А сегодня? Вы набираете в поисковой строке желаемый товар, а через минуту контекстная реклама сама возникает в браузере. С точки зрения программиста, это типичный результат комплексного взаимодействия структурированных и неструктурированных данных. Более того, только их взаимодействие (и желательно в режиме реального времени) и имеет смысл в качестве бизнес-стратегии.
Бизнес больше не может работать с изолированными хранилищами информации – самые актуальные решения в этой области связаны с интеграцией данных. За это отвечают метаданные. Они обеспечивают кратчайший путь к искомой информации. Данные о банковском счете, содержащие собственно номер счета, а также имя и адрес клиента, – типичный пример метаданных. Теги, которыми мы маркируем посты в соцсетях, – тоже метаданные.
Специфика работы с данными
Специфика работы с данными определяется их типом. Данные могут быть:
♦ передаваемыми (их также называют данными в движении), они транслируются непосредственно в ходе производственного процесса – показания медицинских датчиков, приборы слежения;
♦ хранимыми (или данными в покое) – данные соцсетей, статистика продаж, переписка клиентов с кол-центрами.
Цикл работы с данными включает три этапа:
• сбор данных;
• систематизация;
• обобщение.
На первый взгляд, в этом списке нет того, чего бы не знал и специалист середины XX века. Конкретное же содержание работы, как будет показано далее, может быть очень специфическим и разнообразным. К тому же сегодня в этом цикле появилась четвертая характеристика:
• достоверность данных.
Большие данные – океан информации, который, однако, питается тысячами информационных ручейков и речушек. Реляционные базы данных[2]2
Реляционная база данных – совокупность связанной информации, представленной в виде двумерных таблиц. Строки таблицы никак не упорядочены, чтобы обеспечить максимальную гибкость работы с базой. Пользователи могут фильтровать и упорядочивать информацию по своему желанию. Столбцы при этом поименованы и пронумерованы .
[Закрыть], изобретенные в XX веке, имели дело с высокоструктурированными упорядоченными данными, связанными с определенным аспектом деятельности. Сегодня ситуация изменилась. Чтобы у компании сложилась реалистичная картина происходящего, собранные данные должны охватывать множество источников, часто неструктурированных.
Инфраструктура больших данных
В мире, где информации становится все больше, а ее источники – все разнообразнее, единственной эффективной стратегией работы сегодня остаются распределенные вычисления. Эта технология позволяет отдельным компьютерам, сколь угодно удаленным друг от друга, работать в качестве единой среды. Внедрение этой технологии привело в свое время к созданию интернета. В 1990-е Google, Yahoo! и Amazon увеличили бизнес-мощности, используя дешевеющее аппаратное обеспечение для хранения данных. А сегодня мы наблюдаем еще более тесное срастание технологий с бизнесом: ранее недоступные для анализа массивы информации становятся источником миллиардных доходов – первыми это поняли все те же Amazon, Google и Facebook. Но распределенные вычисления сейчас – лишь одна из составляющих инфраструктуры, которая обслуживает большие данные.
Инфраструктура использования больших данных предполагает:
♦ платформы, интерфейсы (от разнообразных приложений до средств обработки потоковых данных[3]3
Потоковые данные формируются непрерывно множеством разных источников и передаются небольшими порциями (пакетами). Файловая система – система, функционирующая на нескольких компьютерах и дающая пользователям единообразный доступ ко всем файлам сети: хотя файлы распределены по разным серверам, пользователю они представляются находящимися в одном месте.
[Закрыть]) и распределенные файловые системы (для разбиения потока данных и масштабирования средств их обработки);
♦ операционные базы данных (хранящие данные о текущей деятельности компании – сделках, клиентах, запасах и т. д.);
♦ аналитическое хранилище данных – корпоративные базы данных, предназначенные для анализа бизнес-процессов, подготовки отчетов и поддержки системы принятия решений.
Платформы для работы с большими данными
Технологические решения: MapReduce и Hadoop
MapReduce – разработанная Google технология, способная обрабатывать большие объемы данных в пакетном режиме. Компонент mар (карта) распределяет задачи между разными системами, а функция reduce (редукция) после необходимых вычислений собирает элементы воедино и формирует результат. Представьте сборник, включающий тексты на 40 языках. Нужно определить, сколько страниц занимает текст на каждом языке. Задачи такого рода как раз для MapReduce. MapReduce быстро захватил рынок, потому что был приспособлен к работе с недорогим стандартным оборудованием.
«Дорога в ад вымощена наречиями» – учит молодых писателей Стивен Кинг. А как обстоит дело с наречиями в его собственных книгах? Программы обработки естественного языка на базе MapReduce определят это без труда. Функция mар распределит анализируемый материал между процессорами, а получившаяся выборка слов станет предметом анализа для функции reduce. Она, в свою очередь, может быть сведена к работе с определенными типами наречий. Филологи подтверждают: король ужасов в самом деле очень аккуратен с этой частью речи, на каждые 10 тысяч слов у Кинга приходится лишь 112 наречий.
MapReduce обозначает общие принципы работы с большими данными. Чтобы воспользоваться этими находками, нужны конкретные технологические продукты. Так появился проект Hadoop[4]4
Лицензия на свободное программное обеспечение, которое не имеет ограничений по установке, использованию, доработке и распространению копий.
[Закрыть], один из самых удобных инструментов работы с большими данными. Он доступен в рамках лицензии Apache версии 2.0. Принцип работы Hadoop – разделяй и властвуй: эта технологическая платформа делит крупные массивы данных на множество фрагментов, а потом организует их параллельную обработку на множестве вычислительных узлов. При этом все блоки данных локальны: отказ одного сервера не сорвет всей работы. Это экономит время вычислений и сокращает число задержек. Высокой отказоустойчивости этой системы клиенты обязаны сервису Zookeeper, который координирует распределенные приложения, работающие с большими данными.
Такие платформы, как MapReduce, особенно эффективны в виртуализированной[5]5
Говоря простым языком, виртуализация серверов – это создание на одном сервере, имеющем избыточные мощности, нескольких виртуальных изолированных или логически объединенных ресурсов (виртуальных машин), на которых могут быть установлены разные операционные системы, независимые друг от друга и одновременно выполняющие разные задачи. Функции регулирования работы операционных систем осуществляет технология гипервизора, то есть монитора виртуальных машин.
[Закрыть] среде. Виртуализация может затрагивать все уровни – оборудование, операционные системы, программное обеспечение, сети и т. д. Особенно актуальна виртуализация серверов: работа с данными становится масштабируемой, то есть такие серверы легко справляются с увеличением нагрузки (не всегда можно заранее представить, с каким именно объемом данных придется иметь дело).
Облачные сервисы
Облачные сервисы все активнее задействуются и в бизнес-среде, и в повседневной жизни. Их преимущество очевидно: пользователи экономят место на жестких дисках и обходятся без дополнительного программного обеспечения. Появлению этой инновации мы обязаны Google и Amazon с их заинтересованностью в том, чтобы оптимально управлять огромным объемом данных.
Почта Gmail от Google – это миллионы сообщений в сутки и сотни миллионов пользователей. Без облачной поддержки такой сервис просто не мог бы возникнуть.
Сейчас у бизнеса есть выбор между общедоступными облаками, которыми управляют Google и другие внешние компании, и собственными локальными ресурсами. Свои преимущества есть и у тех и у других. Общедоступный сервис может обойтись дешевле, чем создание собственного хранилища данных. Но в этом случае компания должна помнить о повышенных мерах безопасности и возможных задержках при обработке информации. Частное облако, напротив, легко контролируемо. Оценив характер проекта и степень риска, на который готова пойти компания, можно выбрать тип облака.
Облачные системы идеальны для работы с большими данными, ведь Big Data предполагает распределение расходуемой мощности, а именно таков принцип работы облачных сервисов. Рынок весьма разнообразен: тут и Amazon, и AT &T, и IBM. Эти компании уделяют особое внимание программному обеспечению, предназначенному именно для работы с большими данными.
Облачные сервисы располагаются будто бы «нигде», поэтому, выбирая поставщика услуг, стоит озаботиться вопросом: где физически будут храниться данные компании? Законодательство некоторых стран запрещает хранение информации на устройствах, расположенных за границей.
Где и как хранятся данные
Особенности хранилищ больших данных
Хранилища данных возникли 30 лет назад, существенно облегчив работу крупных корпораций, но сейчас на фоне развития технологий больших данных их концепция выглядит несколько устаревшей. Очевидно, что хранилища информации и большие данные должны представлять собой единую гибкую структуру. Ее работа требует разделения функций: высокоструктурированные операционные данные могут содержаться в хранилище, а данные, поступающие в режиме реального времени, управляются инфраструктурой на основе Hadoop.
Туристическая компания имеет дело с широким спектром задач (бронирование билетов и номеров, планирование рейсов, экскурсии), и все эти услуги требуют разноплановых операций, представляя к тому же огромный объем данных. Операционные данные типа клиентской базы могут содержаться в хранилище данных, но веб-трафик и взаимодействие с клиентами должны управляться более мобильными инструментами. Поведение клиентов, анализ разнообразных факторов, влияющих на это поведение, – вся эта информация не может лежать мертвым грузом в хранилище, зато с ней позволяют справиться распределенные вычисления Hadoop и MapReduce.
Операционные данные и базы данных
Работа с большими данными должна соотноситься с текущим состоянием бизнеса. Другими словами, большие данные могут полноценно работать только в связке с операционными данными. Одни компании хранят операционные данные в общей базе, другие – в нескольких. Это зависит лишь от удобства использования: данные о клиентах могут храниться в одной базе данных, а данные о сделках с этими клиентами – в другой. Обращаясь к использованию больших данных, важно понимать, где и какие данные уже хранятся. Типы баз данных могут существенно различаться в зависимости от характера данных, с которыми приходится иметь дело.
Документальные базы данных предназначены для постоянного хранения отдельных, часто меняющихся компонентов данных, которые при необходимости могут быть сгенерированы в новый документ. С такими базами ежедневно имеют дело врачи, внося разноплановые данные о пациентах в стандартную форму, материалы которой потом используются в разных отчетах.
Графовые базы данных представляют материал в виде классификаций или систематизированных схем. Они эффективны в работе со сложно взаимосвязанными данными типа биологических или тех же медицинских сведений. Знакомая по школьному учебнику схема «Царство животного мира», только дополненная тысячами подробностей, – это типичная графовая база данных.
Пространственные базы данных встречаются нам ежедневно – они лежат в основе системы GPS, обеспечивают точную геолокацию. Работа с этим типом информации считается одной из наиболее сложных, но и обещает принципиально новые сферы применения: трехмерное моделирование самых разных объектов от зданий до человеческого тела или реконструкция трехмерного пространства прошлого на основе имеющихся архивных данных.
Базы данных с полиглотной сохраняемостью умеют работать со сложными задачами, разделяя их на отдельные сегменты и применяя к каждому свою модель базы данных. Представим полиглота, который оказался на национальной вечеринке: его окружают американец, норвежец, китаец, японец, испанец – и с каждым из них полиглот может вести беседу на его родном языке. Так работают и базы данных с полиглотной сохраняемостью, а результатом их работы становится новое гибридное решение для хранения данных.
Крупной сети магазинов требуется определить всех покупателей крупной бытовой техники, которые совершили покупку за последний год и поделились этой новостью в социальных сетях, а также узнать, где именно приобретался товар, обращались ли покупатели в службу техподдержки, как быстро была решена их проблема. Результатом этой работы должна стать таргетированная рекламная акция, извещения о которой приходили бы на смартфоны клиентов всякий раз, когда они проходят мимо магазина этой сети. Звучит слишком сложно? Для сферы больших данных это типичная задача. Собранная информация будет чрезвычайно разнородной, при этом часть ее уже хранится в реляционной базе данных компании. Сам тип задачи требует обращения к разным видам сохраняемости данных – и графовой (классификация клиентов), и пространственной (отслеживание перемещений клиента). Для всей этой работы требуется база данных с полиглотной сохраняемостью.
Аналитика больших данных
Виды аналитики
Сами по себе большие данные – это лишь огромное количество информации. Преимущество в работе с ними имеет тот, кто научился грамотно анализировать необъятные массивы данных.
Таковы гиганты бизнеса – Amazon и Google. Фраза «С этим товаром покупают также…» – результат многоходовой операции, в которой сведены и история активности клиента, и его покупательские привычки, и схожие предпочтения других клиентов.
Работа с большими данными – это искусство правильно задавать вопросы. Поставленная задача определяет тип аналитики.
Базовая аналитика годится для рекогносцировки на местности, когда компания имеет дело с несопоставимыми или неочевидными данными. Типичные инструменты базовой аналитики – визуализация и статистические выкладки.
Гидрологи исследуют толщу воды в различных точках Волги. Полученные показатели отражают самые разные параметры, измеренные множеством датчиков: уровень кислорода, температуру, прозрачность, минерализацию. График или схема позволит наглядно соотнести разноплановые сведения, например прозрачность и минерализацию. Также ученые могут вывести из полученной информации диапазон значений для каждого параметра. Это станет основой для дальнейшего анализа.
Углубленная аналитика ориентирована на поиск тенденций и обработку сложных событий.
Компания, оказывающая услуги сотовой связи, хочет определить, какие клиенты могут отказаться от ее услуг и как их можно удержать. Средствами базовой аналитики тут не обойдешься.
Операционализированная аналитика встроена в работу компании, управляет людьми и технологиями в процессе достижения бизнес-цели.
Вы звоните в магазин электротехники, а в это время программа определяет вас как клиента, склонного к большим покупкам. Программа подает сигнал оператору кол-центра, и тот выбирает соответствующую модель разговора с вами. Или же программа может отправить вам после разговора специальное предложение о поступивших в продажу новинках. Так работает операционализированная аналитика.
В смысле получения прибыли аналитика больших данных – это руки царя Мидаса, которые все обращают в золото. Уникальный массив данных, который порождается в результате такой аналитики, представляет огромную ценность для рекламодателей. И это хорошо знают Google и Facebook.
Потоковая передача данных и обработка сложных событий
Успех в бизнесе во многом зависит и от скорости реакции на вызовы реальности. В работе с большими данными управлять этой реакцией помогают такие инструменты, как потоковая передача данных и обработка сложных событий.
Потоковые вычисления нужны для обработки потока неструктурированных данных. Они актуальны с пылу с жару, когда решение должно приниматься немедленно, идет ли речь и состоянии пациента в больничной палате, подозрительных перемещениях по режимному объекту или отказе важной системы на ядерной станции.
Обработка сложных событий сосредоточена на нескольких переменных, которые имеют ключевое значение для бизнес-процесса. Собранные за определенный период данные могут сигнализировать, например, о том, что бизнес-план нуждается в корректировке или компании грозят трудности в связи с изменением ситуации на рынке.
Сеть розничной торговли желает повысить число продаж и создает для этого программу лояльности. Программа спланирована таким образом, чтобы побуждать самых обеспеченных клиентов тратить как можно больше денег. Платформа обработки сложных событий, управляющая программой, настроена так, чтобы своевременно предлагать клиентам скидки на определенные продукты и услуги. Важно, чтобы эта программа была связана с мобильным приложением и платформа была в курсе перемещений клиента: как только он проходит мимо нужного магазина, ему приходит сообщение о неожиданном бонусе или рекламное оповещение. Обработка сложных событий координирует множество цифр (платежи, курс валют, скидки) и действий (поведение клиента), а вся техническая работа сосредоточена на ключевых положениях принятой бизнес-стратегии.
Текстовая аналитика
Нам кажется, что сегодня интернет-контент состоит сплошь их картинок и видео. Но представьте себе интернет без текстов. Он сразу же станет немым и безлюдным! Неудивительно, что именно текстовая аналитика остается ключевой технологией обработки больших данных.
Сообщения в соцсетях, электронные письма, юридические договоры – все это информация, структурированная определенным образом, а значит, она может быть отслежена и обобщена. Как? Тут на помощь программистам приходит лингвистика, ведь речь идет о принципах обработки естественного человеческого языка. Они опираются на давно известные лингвистические концепции грамматических структур и семантики. Правда, чтобы эти концепции понял компьютер, требуется выработать новые правила. Они могут быть очень просты и удобны в использовании («имя начинается с заглавной буквы»), могут быть не столь очевидны, но реализуемы (распознавание эмоций), а некоторые правила находятся еще в процессе становления.
Это сложная многоаспектная задача, потому что феномен языка не вполне понятен и самим людям, не говоря о уже компьютерах. Тем не менее успехи машинного перевода внушают оптимизм, а интересы бизнес-гигантов заставляют стимулировать процесс поиска удобных алгоритмов. Письма, поступившие в компанию, звонки в кол-центры, опросы клиентов – вся эта информация содержит чрезвычайно ценные сведения и ждет того, чтобы ей воспользовались.
Текстовой аналитике учится сам суперкомпьютер Watson, известный тем, что в 2011 году одержал одну из самых впечатляющих побед над человеком – выиграл шоу Jeopardy! (русский аналог – «Своя игра»).
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?