Электронная библиотека » Карл Андерсон » » онлайн чтение - страница 6


  • Текст добавлен: 10 июля 2017, 23:40


Автор книги: Карл Андерсон


Жанр: О бизнесе популярно, Бизнес-Книги


Возрастные ограничения: +12

сообщить о неприемлемом содержимом

Текущая страница: 6 (всего у книги 23 страниц) [доступный отрывок для чтения: 8 страниц]

Шрифт:
- 100% +
Хранение данных

Эта глава была посвящена нахождению и интеграции дополнительных данных. В результате этого процесса увеличивается объем данных, с которыми работают аналитики. При этом данные могут устаревать. Ранее мы уже говорили о стоимости данных – издержках на их приобретение, хранение и управление ими. Кроме того, есть издержки и риски, которые не так легко оценить: какой урон может нанести вашему бизнесу, например, утечка данных? Один из аспектов, о которых следует задуматься, – когда удалять данные (сокращая риск утечки и издержки на хранение) и когда перемещать данные на подходящий носитель для хранения.

У данных есть одна особенность: они множатся. Вы можете загрузить набор данных в реляционную базу, но на этом все не закончится. Ваши данные могут сохраниться в одну или несколько подчиненных баз при неполадках с сервером, на котором хранится основная база данных. И вот у вас уже две копии. Кроме того, вы можете проводить резервное копирование на сервер. Обычно таких резервных копий, на случай, если что-то пойдет не так, у вас может быть за несколько дней, даже за неделю. Так что вы теперь обладатель девяти копий, и хранение каждой из них стоит денег. Как поступить в такой ситуации? Один из вариантов – сопоставлять наборы данных с адекватным периодом ожидания, в течение которого их можно использовать или сохранить.

Рассмотрим такой пример: Amazon S3 – дешевый и простой способ хранения данных[46]46
  URL: https://aws.amazon.com/ru/s3/.


[Закрыть]
. Хранение данных с помощью такого сервиса определенно обойдется дешевле, чем покупка и обслуживание дополнительного сервера для хранения резервных копий. Получить данные вы можете в любой момент, когда они вам потребуются. При этом Amazon также предлагает похожий сервис под названием glacier[47]47
  URL: https://aws.amazon.com/ru/glacier/.


[Закрыть]
. По сути, он очень похож на S3, но создавался как сервис для архивного хранения данных, и на получение данных может уйти четыре-пять часов. При текущем уровне цен стоимость glacier в три раза ниже, чем S3. В случае экстренной ситуации потребуются ли вам данные немедленно или вы сможете обойтись без них полдня или день?

Компании с управлением на основе данных следует тщательно оценить их стоимость. Изначально сосредоточиться нужно на основных данных, где любой простой может иметь серьезные последствия. Компании следует наладить процесс удаления устаревших данных (это бывает легче сказать, чем сделать) или, в крайнем случае, хотя бы перемещать эти данные на самые дешевые из возможных источников хранения.

Более эффективные компании с управлением на основе данных, например достигшие уровня прогнозного моделирования, могут разрабатывать модели, которые используют только самые необходимые данные и отбрасывают все остальные. Например, по словам Майкла Ховарда, CEO компании С9, «отдел продаж не хранит детали заказа более 90 дней»[48]48
  URL: https://techcrunch.com/2014/09/06/three-marks-of-real-data-science/.


[Закрыть]
. Если это так, то необходимо тщательно отбирать данные. Как мы показали, компании с управлением на основе данных следует стратегически подходить к выбору источников данных и к ресурсам компании на работу с данными. Аналитики выполняют важные функции по анализу потенциальных источников информации и поставщиков данных, по приобретению выборок и, по возможности, по оценке качества данных и применению выборки для определения ценности данных.

В следующей главе мы поговорим о самих специалистах по аналитике, об их функциях и о том, как можно организовать аналитическую работу в компании.

Глава 4. Специалисты по аналитике

По-настоящему хороший аналитик должен будоражить людей… Я знаю, что я первый получаю данные, а значит, я первый узнаю историю. Открывать что-то новое увлекательно.

Дэн Мюррей

Человеческий фактор – важный компонент компании с управлением на основе данных. Кто такие специалисты по аналитике и как должна быть организована их работа?

Эта глава посвящена специалистам по аналитике: разным их типам и навыкам, которыми они должны обладать. Мы рассмотрим самые разные позиции и познакомимся с людьми, которые их занимают. Кроме того, мы обсудим плюсы и минусы разных организационных структур для выполнения аналитической работы.

Типы специалистов по аналитике

В компании с управлением на основе данных, вероятнее всего, есть разные специалисты по аналитике, собранные в многочисленные команды. Есть разные описания этих аналитических позиций, и многие из перечисляемых навыков пересекаются. Я предлагаю собственную версию общего описания аналитиков, специалистов по работе с данными, бизнес-аналитиков, специалистов по обработке данных, по статистике, по количественному и экономическому анализу, финансовых аналитиков и специалистов по визуализации данных. Для каждого из этих типов специалистов я опишу навыки, которыми они должны обладать, инструменты, которыми они пользуются, а также приведу конкретные примеры. В вашей компании могут быть другие названия для этих специалистов, но без описанных навыков обычно невозможно эффективно работать с данными.

АНАЛИТИК

Это самый широкий и общепринятый термин, по крайней мере по сравнению с более узкими профессиональными ролями, о которых пойдет речь далее. В большинстве случаев их опыт можно условно представить в виде буквы «Т»: они обладают скромным опытом по целому спектру навыков, но очень глубокими знаниями и навыками в своей основной профессиональной области. В зависимости от своего профессионального опыта специалисты по аналитике могут быть как новичками, которые занимаются в основном сбором и подготовкой данных, так и высококвалифицированными аналитиками со специализацией по определенной теме. Такие аналитики часто бывают главными экспертами в разных областях, таких как работа с мнением клиентов, программы лояльности, электронный маркетинг, геоспециализированная военная разведка или отдельные сегменты фондового рынка. Конкретная роль в компании зависит от ее размера, зрелости, области специализации и рынка. В любом случае результат работы аналитика, скорее всего, будет представлять собой сочетание анализа и отчетов. Аналитики могут отличаться по степени владения техническими навыками и знания профессиональной области.

С одной стороны, есть аналитики, работающие исключительно в Excel и с помощью дашбордов. А с другой стороны, есть такие, как Самарт, который сам пишет программные коды на языке Scala для обработки большого объема сырых данных в компании Etsy. Изначально Самарт занимался политологией, а навыки аналитической работы получил в предвыборном штабе Барака Обамы во время работы в кампании 2012 года. Затем с помощью стандартной триады инструментов, наиболее популярных у аналитиков (R, SQL и Python), он начал проводить исследования в сети и с электронными рассылками. Сегодня он работает аналитиком в компании Etsy в Нью-Йорке, где продолжает проводить свои исследования, а также осуществляет анализ истории посещений пользователей и трендов, составляет отчеты и аналитические доклады. В компании он взаимодействует с продакт-менеджерами, техническими специалистами и дизайнерами и помогает им разрабатывать эксперименты, анализировать их с помощью Scala/Scalding, R и SQL и интерпретировать полученные результаты. Кроме того, он готовит общие аналитические отчеты для компании, а также более узконаправленные справки для руководителей, чтобы помочь им разобраться в трендах, поведении пользователей или других специфических вопросах.

Саманта – аналитик совсем другого рода. У нее степень бакалавра по бухгалтерскому учету, и она работает специалистом по данным в страховой компании Progressive Insurance в Кливленде, штат Огайо, в команде финансовых специалистов отдела по работе с исковыми заявлениями. Она занимается вопросами выморочного имущества (это категория наследуемого имущества, которая отходит государству в случае отказа от его получения), проводит аудит, анализ и проверяет соответствие законам штата в данной области. В ее работу входит подготовка отчетов и отслеживание собственности, от которой отказались, поиск интересных проектов, суммирование финансовых рисков, связанных с этими вопросами. В своей работе она использует такие инструменты, как SAS, Excel и Oracle, а также специализированные инструменты, такие как ClaimStation. От результатов ее работы зависит целый ряд аспектов, которыми занимаются другие специалисты в компании, в том числе это налог на прибыль корпораций, финансовые операции, ИТ, исковые заявления крупного бизнеса, а также исковые заявления отдельных людей. По словам Саманты, ее мотивирует, когда она «видит, что ее анализ приносит финансовую выгоду как компании, так и застрахованным у нас клиентам». В ее работе особенно важно внимание к деталям, поскольку она работает в жестко регулируемой отрасли, а в сферу ее обязанностей входит проверка деятельности компании на соответствие законам штата.

ИНЖЕНЕРЫ В ОБЛАСТИ ОБРАБОТКИ ДАННЫХ И АНАЛИЗА

Эти специалисты в первую очередь несут ответственность за сбор и обработку данных и перевод их в формат, удобный для проведения анализа. Они отвечают за аспекты операционной деятельности, такие как скорость обработки информации, масштабирование, пиковые нагрузки и ведение журнала операций. Кроме того, они могут отвечать за разработку инструментов, которые используют аналитики.

Знакомьтесь, это Анна. Во время подготовки диссертации по физике она поняла, что на самом деле ей интересно заниматься данными. Она окончила обучение с дипломом магистра и начала работать в компании Bitly в качестве специалиста по обработке данных. Анна занимается визуализацией больших объемов данных, обрабатывает данные с помощью набора инструментов Hadoop, внедряет алгоритмы машинного обучения. Затем она присоединилась к проекту Rent The Runway и сейчас работает там инженером по обработке данных. При помощи таких инструментов, как SQL, Python, Vertica, она поддерживает инфраструктуру данных, на которой держится аналитический процесс, разрабатывает новые инструменты для повышения надежности данных, их своевременности и масштабируемости, а также взаимодействует с другими техническими специалистами компании, чтобы понимать любые изменения, которые они совершают и которые могут повлиять на данные.

БИЗНЕС-АНАЛИТИКИ

Эти специалисты обычно выступают связующим звеном между руководством (например, руководителями отделов) и технологическим отделом (например, разработчиками программного обеспечения). Их функции заключаются в улучшении бизнес-процессов или помощи в разработке новых или совершенствовании существующих бэкэнд– и фронтэнд-систем, например, в их функции входит улучшение воронки продаж на сайте.

Линн – старший бизнес-аналитик крупного интернет-магазина Macys.com. У нее степень бакалавра в области изобразительных искусств, опыт разработчика приложений, сертификат Профессионала в управлении проектами, кроме того, почти десятилетний опыт работы в области управления проектами и бизнес-аналитике, преимущественно в сфере книжной электронной коммерции. В функции Линн входит проведение анализа требований проекта, понимание потребностей клиентов, совершенствование бизнес-процессов, а также управление проектами, часто на основе гибкого подхода (Agile). Линн делится своими впечатлениями: «Ни один мой рабочий день не похож на другой. Сегодня я могу беседовать с пользователями на тему их ожиданий (то есть с предпринимателями, которые пользуются информационной системой управления товарами Macy), завтра я делаю обзор ответов пользователей вместе с разработчиками или отвечаю на вопросы разработчиков относительно ответов пользователей».

DATA SCIENTISTS (СПЕЦИАЛИСТЫ ПОРАБОТЕ С БОЛЬШИМИ ДАННЫМИ)

Этот широкий термин применяется для обозначения специалистов в области работы с большими данными, обладающих математическими или статистическими знаниями, обычно с более высоким уровнем образования в точных науках, а также развитыми навыками программирования. Мне нравится лаконичное определение Джоша Уиллса: «Это человек, который разбирается в статистике лучше любого программиста и способен написать программный код лучше любого статистика»[49]49
  URL: https://twitter.com/josh_wills/status/198093512149958656.


[Закрыть]
. Тем не менее это не полное описание его функций, которые могут включать разработку «продуктов на основе данных», таких как рекомендательный сервис с применением машинного обучения, или прогнозное моделирование, или обработка естественного языка[50]50
  Conway D. The Data Science Venn Diagram, September 30, 2010. URL: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  Anderson C. What is a data scientist? December 3, 2012. URL: http://www.p-value.info/2012/12/what-is-data-scientist.html


[Закрыть]
.

Трей – старший специалист по теории и методам анализа данных интернет-компании Zulily, расположенной в Сиэтле. Особенность этого интернет-магазина – ежедневные распродажи. У Трея степень магистра по социологии. Свое рабочее время Трей делит между самыми разными проектами – от разработки статистических моделей и рекомендательных алгоритмов для улучшения опыта пользователей до помощи менеджерам продуктов в интерпретации результатов A/B-тестирования. В основном он пользуется языком программирования Python (с такими библиотеками, как Pandas, Scikit-learn и Statsmodels), а также анализирует данные, используя SQL и системы управления базами данных Hive. Он обладает нужными техническими навыками для построения статистических моделей и считает способность доступно объяснить эти модели неспециалистам одним из важнейших качеств профессионала, занимающегося работой с данными. Любовь к обучению нашла отражение в его хобби: он ведет блог, в котором объясняет концепции работы с данными на примере данных по американскому футболу, а также рассказывает о том, как лучше понимать спортивную статистику[51]51
  URL: http://thespread.us/


[Закрыть]
.

СПЕЦИАЛИСТЫ ПО СТАТИСТИКЕ

Это квалифицированные сотрудники, которые занимаются в компании статистическим моделированием. Обычно у них не ниже степени магистра в области статистики, чаще всего они востребованы в таких сферах, как страхование, здравоохранение, исследования и разработки, государственное управление. Четверть всех специалистов по статистике в США работают на федеральное правительство, правительства штатов или органы местного самоуправления[52]52
  URL: https://www.bls.gov/ooh/math/statisticians.htm.


[Закрыть]
. Часто они занимаются не только анализом данных, но и разработкой опросов, исследований, а также сбором протоколов для получения сырых данных.

Шон – специалист по статистике, поддерживающий проведение количественных маркетинговых исследований в офисе Google в Боулдере. У него степень бакалавра в области математики и научных вычислений и Ph.D.[53]53
  Ph.D. (лат. Philosophiae Doctor, доктор философии) – ученая степень, которая присуждается в западной системе высшего образования. Эта степень не имеет никакого отношения к философии (кроме исторического) и присуждается во всех научных областях. По разным мнениям, эта степень соответствует степеням кандидата или доктора наук в нашей стране (или находится между ними). Прим. ред.


[Закрыть]
в области статистики. Сегодня Шон также обеспечивает поддержку сотрудникам в других командах, часто при возникновении необходимости переходя из проекта в проект. С одной стороны, он может заниматься сбором, очисткой, визуализацией и оценкой качества данных из нового источника. А с другой стороны, он опирается на свои технические навыки для разработки алгоритмов кластеризации, чтобы улучшить онлайновые геоэксперименты по поиску, разработать байесовские модели временных рядов или оценить уровень индивидуального просмотра на основе данных домохозяйств с помощью алгоритма Random Forests. В основном он пользуется средой R, особенно для анализа и визуализации данных (в частности, такими пакетами, как ggplot2, plyr/dplyr и data.table). Помимо этого он применяет в своей работе языки программирования типа SQL и пользуется Python и Go.

КВАНТЫ

Специалисты по количественному анализу, как правило, обладают хорошей математической подготовкой и обычно работают в финансовом секторе, моделируя управление риском и движение фондового рынка со стороны как покупателей, так и продавцов. Например, пенсионный фонд может нанять кванта, чтобы тот сформировал оптимальный портфель облигаций, способный покрыть будущие обязательства фонда. Квантами могут стать бывшие математики, физики или технические специалисты. Некоторые из них – особенно аналитики алгоритмической торговли (самые высокооплачиваемые специалисты из всех аналитиков) – обладают уверенными навыками программирования на таких языках, как C++, они способны обрабатывать данные и предпринимать действия с крайне небольшим временем ожидания.

Сатиш – квант в компании Bloomberg в Нью-Йорке. У него глубокие знания в области прикладной математики и проектирования электрических систем, о чем свидетельствует его степень Ph.D. Он пользуется средой R (ggplot2, dplyr, reshape2), языком программирования Python (scikit-learn, pandas) и Excel (для сводных таблиц) для построения самых разных статистических моделей, а затем при помощи C/C++ запускает некоторые из них. Эти модели часто определяют относительную ценность различных категорий активов с фиксированной доходностью. Помимо этого, он выступает в роли внутреннего консультанта, и ему приходится решать самые разные задачи – от кредитных моделей для ценных бумаг с ипотечным покрытием до прогнозирования объема ветровой энергетики в Великобритании. По его словам, «огромный объем финансовых и аналитических данных, доступный для специалистов Bloomberg, беспрецедентен для отрасли. Поэтому нас воодушевляет осознание того, что большинство предлагаемых нами моделей имеют ценность для всех наших клиентов». Одна из сложностей работы с финансовыми данными заключается в том, что у них очень «длинный хвост», и таким образом в моделях необходимо тщательно учитывать эти редкие, нестандартные события.

СПЕЦИАЛИСТЫ ПО ЭКОНОМИЧЕСКОМУ АНАЛИЗУ И ФИНАНСОВЫЕ АНАЛИТИКИ

Специалисты, которые занимаются внутренней финансовой отчетностью, аудиторскими проверками, прогнозированием, анализом эффективности производственной деятельности и так далее. У Патрика степень бакалавра по философии, политологии и экономике, а также опыт работы в качестве специалиста по анализу рынков заемного капитала в компании RBS Securities. Сейчас он занимает позицию менеджера по розничному финансированию и стратегии в компании Warby Parker в Нью-Йорке, где отвечает за планирование и анализ финансов в розничной сети, а также разработку стратегии по открытию новых магазинов. Он проводит много времени, работая с Excel, управляя прибылями и убытками склада и ключевыми показателями результативности (KPIs), разрабатывая модели будущей деятельности, изучая отклонения в моделях и проводя анализ развития рынка. Сегодня Патрик тратит около 60 % рабочего времени на подготовку отчетов, а оставшееся время – на проведение анализа, тем не менее это соотношение увеличивается в пользу времени на аналитическую работу по мере того, как улучшается его знакомство с инструментами бизнес-аналитики в компании и повышаются навыки работы с этими инструментами.

СПЕЦИАЛИСТЫ ПО ВИЗУАЛИЗАЦИИ ДАННЫХ

Это люди с развитым чувством прекрасного, которые создают инфографику, дашборды и другие графические элементы. Кроме того, они могут заниматься написанием программного кода при помощи JavaScript, CoffeeScript, CSS и HTML и работают с библиотеками визуализации данных, такими как D3 (эффективная и красивая библиотека визуализации, описанная в книге Скотта Мюррея Interactive Data Visualization for the Web) и HTML5.

Джим (Джим В., см. рис. 4.1) получил степень магистра в области теории и практики вычислительных систем со специализацией в сфере биоинформатики и машинного обучения. Он работал в компании Garmin, где создавал графические пользовательские интерфейсы для навигационных устройств. После этого в биологическом научно-исследовательском институте он проводил анализ масштабной последовательности данных. Именно тогда он познакомился с библиотекой визуализации данных D3 и начал вести блог, посвященный этой теме, где публикует доступные и понятные руководства для пользователей. Сегодня Джим занимает пост специалиста по визуализации данных и специалиста по теории и методам анализа данных в лаборатории данных корпорации Nordstrom в Сиэтле. В своей работе он использует такие инструменты, как Ruby, Python и среду R (в частности пакеты ggplot2 и dplyr). Он обеспечивает поддержку систем персонализации и рекомендаций, а также осуществляет визуализацию данных. Основными его «клиентами» становятся сотрудники из других подразделений компании. В крупных компаниях иногда могут быть дополнительные специалисты, которые занимаются исключительно подготовкой отчетов или применением определенного инструмента бизнес-аналитики. Другие специалисты могут работать только с инструментами обработки и анализа больших данных, например Hadoop или Spark.


Рис. 4.1. Профиль команды лаборатории данных компании Nordstrom (по состоянию на 2013 год). МО = машинное обучение. DevOps – относительно новый термин, обозначающий интеграцию разработки и эксплуатации программного обеспечения


Как вы сами видите, названия специалистов, работающих с данными, как и их функции, во многом пересекаются. В основном они обрабатывают данные с помощью разных языков программирования типа SQL.

В одних случаях требуются более серьезные навыки программирования, а в других можно обойтись и без них. Нередко требуется построение статистических моделей с применением SAS или R. В большинстве случаев работа аналитика объединяет подготовку отчетов и собственно проведение анализа.


Страницы книги >> Предыдущая | 1 2 3 4 5 6 7 8 | Следующая
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации