Текст книги "Big data простым языком"
Автор книги: Наталья Хапаева
Жанр: Базы данных, Компьютеры
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 2 (всего у книги 12 страниц) [доступный отрывок для чтения: 3 страниц]
Начиная с 2015 года[8]8
В соответствии с письмом ФНС РФ от 23.11.15 № 11-06/0733, поле «ИНН» стало обязательным реквизитом при подаче справки 2-НДФЛ.
[Закрыть] все налоговые агенты стали обязаны указывать в сопроводительных справках при удержании налога информацию об идентификационном номере налогоплательщика (ИНН).
Для справки: организация является налоговым агентом, если платит за кого-то налоги как, скажем, работодатель, который платит за своего сотрудника налог на прибыль, или банк, который удерживает налог, если привлекает депозиты по высокой ставке или решил списать часть задолженности.
Ситуация усложнилась тем, что для финансовых организаций поле «ИНН» не являлось обязательным при выдаче банковского продукта (кредита или депозита). Добавление нового поля требовало организовать доработку всех ключевых банковских систем.
Непредоставление такой информации в Федеральную налоговую службу могло повлечь за собой возможность наложения штрафа на налогового агента в сумме от двухсот тысяч рублей за одну запись[9]9
Позднее размер штрафа предлагалось увеличить до пятисот рублей с одной записи, где нет обязательного атрибута ИНН.
[Закрыть]. Сумма штрафа в пятьдесят миллионов рублей становилась существенной для ведения бизнеса с данными клиентов.
Таким образом, данные помимо возможности монетизации приводят организацию к риску получения внепланового расхода. Подход для работы с ними усложняется, требуются новые инструменты, новые профессии и новые правила работы с данными.
Данные – это актив, новая нефть, которая еще не имеет всех необходимых дефиниций по правильности или этичности использования.
Кругом только косяки и сложности. Чтобы понимать многообразие всех этих связей, которые появились, нужно обладать определенными навыками работы с данными как с точки зрения технологии, так и с точки зрения буквы закона.
Хочу упомянуть моего друга, Джозефа Маклеода. Он был когда-то UX дизайнером Nokia и является автором концепции Off-boarding. Согласно его парадигме, пользователи в цифровой среде ведут себя уже не так, как на индустриальном рынке. Они перестали бесконечно потреблять.
Информации вокруг стало так много, что внимание пользователей научилось чаще переключаться. Пользователям больше не нужно то, что им предлагали обычно. Капитализм в привычной форме отступает. Жизненный цикл потребителя теперь должен не только уверенно начинаться и поддерживаться, но и завершаться.
Завершение – один из важнейших этапов взаимодействия с пользователем в цифровом мире, но большинство компаний и сервисов не уделяют ему должного внимания, из-за чего данные пользователей по-прежнему остаются в компаниях. Висят незакрытые банковские счета, приходят уведомления о подписках и сервисах, которые уже не интересны клиентам.
Data-driven организации[10]10
Эти главы я писал под действием сильных психотропных препаратов, поэтому они могут показаться вам глубокими и сложными.
Но без них практически невозможно понять, о чем здесь написано.
[Закрыть]
Если вы работаете с данными, то необходимо помнить, что все новинки и важные изменения в подходах работы с ними всегда отражались в первую очередь в маркетинге или в коммуникации с клиентом, будь то UX-интерфейс или персональное уведомление.
В середине 2000-х, организации, занимающиеся дизайном, провозгласили новую тенденцию data-driven организаций, когда все расположения кнопочек, иконок или иных интерфейсов подчиняются логике работы на основании данных. Так называемый Data-driven Design.
http://datareview.info/article/chto-takoe-data-driven-i-kak-vashej-kompanii-stat-data-orientirovannoj/
Иными словами, все, что увеличивает конверсию, отражает текущее поведение клиента или потенциального клиента, должно строиться на основании данных и наблюдений. Получается, что все события превращаются в данные, которые ведут к конкретным решениям, так что организация становится дата-центрированной, то есть все решения внутри нее по созданию ценности, запусков продуктов или оптимизации, подчиняются исключительно данным.
Впервые термин data-driven был представлен в 1990 году Тимом Джонсоном[11]11
What data for data-driven learning? Alex Boulton, 2011 Nottingham. https://files.eric.ed.gov/fulltext/ED544438.pdf
[Закрыть], преподавателем School of English в Университете Бирмингема. Он предположил, что в основе любого языка находятся определенные общие понятия, «corpus»[12]12
Согласно Wikipedia, кóрпус (в данном значении множественное число – кóрпусы, не корпусá) – подобранная и обработанная по определенным правилам совокупность текстов, используемых в качестве базы для исследования языка.
[Закрыть], на основе которых можно строить зависимость и исследовать лингвистику языка. Для своего исследования Джонсон использовал Международную базу лингвистических данных Бирмингемского университета (COBUILT). Эта работа легла в основу создания и описания корпусной лингвистики, что, в свою очередь, позднее повлечет за собой создание машиночитаемой лингвистики, использование Скрытых Марковских Моделей[13]13
Согласно Wikipedia, это – статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов.
[Закрыть] и создание алгоритмов распознавания образов и текста.
Впоследствии централизация решений через данные распространилась на все ключевые бизнес-процессы без исключения и привела к новым формам внутренней работы организаций – data-driven organization.
Data-driven организации – это такие компании, в которых все внутренние процессы и большинство решений вокруг них строятся исключительно на основании данных. Вначале 2000-х ряд компаний провозгласили себя data-driven: Google, Facebook и другие.
Развитие новой формы кооперации человека с использованием данных немедленно натолкнулось на один из первых барьеров на пути своего становления.
Им стал синдром HYPPO.
В 1963 году психолог из Йельского Университета, Стэнли Милгрэм, поставил эксперимент по социальной психологии, который описал позднее в статье «Подчинение: исследование поведения». Суть эксперимента сводилась к тому, что испытуемому предлагали стать на время Учителем и «помочь» Ученику (который был актером) выучить ряд слов и сочетаний. Экспериментатор дал Учителю указание, в случае ошибки, каждый раз бить током Ученика. При этом, каждая новая ошибка влекла за собой увеличение силы тока, вплоть до смертельно опасной. Ученик, в свою очередь, имитировал боль от тока, а Экспериментатор заставлял Учителя продолжать эксперимент, несмотря ни на какие возгласы со стороны Ученика.
До начала эксперимента Стэнли Милгрэм попросил большинство коллег, с которыми работал, оценить, сколько испытуемых дойдет до конца эксперимента. Большинство сошлось на двадцати процентах, но на практике все вышло ровным счетом наоборот. Менее двадцати процентов участников отказались продолжать эксперимент, а подавляющее большинство прошло его до конца. Этот психологический эксперимент показал чрезвычайно сильно выраженную готовность здоровых и нормальных взрослых людей достаточно долго следовать указаниям Экспериментатора (авторитета).
Причем же здесь данные?
Обратимся к евангелисту по цифровому маркетингу Google, Авинаш Кошик, который впервые ввел термин HYPPO в своей книге Web analytics: An Hour a Day.
HYPPO – означает мнение самого высокооплачиваемого человека в комнате (Highest Paid Person Opinion). Когда в комнате, где принимается решение, есть человек, который получает больше всех, то, скорее всего, его авторитет будет ключевым при формировании конечного решения.
Во многом такие решения могут противоречить тем, которые принимались на основании данных. Первые решения субъективны и, в конечном счете, преследуют личную выгоду, принося скрытый ущерб обществу. И как же быть? Ответ может лежать в плоскости деперсонификации принимаемых решений посредством анализа получаемых данных. Данные позволяют отказаться от эмоций и личной заинтересованности при анализе получаемых фактов.
Для этого процесс подготовки отчетности требует определенной реорганизации, как в прочем и самой организации.
7 Шагов data-driven decision culture
В 2007 году, во время своего выступления в Google Conversion University, Авинаш Кошик выделил семь ключевых шагов, которые позволяют трансформировать культуру работы организации и перейти к дата-центрированной организации. И сейчас они не потеряли своей актуальности, поэтому я и привел их в этой книге как одну из основ построения новой формы культуры работы с данными.
Вот так называемые Cultural Hacks или Лайфхаки.
Шаг #1. Всегда переходите к Результатам – Go to the Outcomes
Основа коллаборации между людьми с использованием данных лежит, прежде всего, в понимании того, что важно для каждого из участников: от чего зависят их бонусы или выплаты, на что обращают внимание люди, которые принимают решения. Для этого нужно понимать, какими объектами оперирует компания, и это понимание перенести на уровень данных. Традиционная ошибка – начать собирать все данные компании, считать все возможные из них метрики и отправлять всем заинтересованным людям отчеты с этими показателями.
Шаг #2. Отчетность – это еще не Аналитика – Reporting is not Analysis
Большая часть отчетности, участвующая в подготовке, проверке или анализе, никак не связана с теми мотиваторами, от которых зависит завтрашний день каждого участника процесса, принимающего решение. В основном, ключевой ошибкой всегда и везде была простая демонстрация данных, в надежде, что решение с использованием этих данных найдет себя само.
На самом деле, в основе бизнеса лежат традиционные бизнес-вопросы.
Рассмотрим несколько примеров? Ведь это звучит это очень абстрактно.
Пусть у нас есть небольшая организация, где помимо прочих департаментов, есть целый отдел клиентского сервиса. Пусть вы являетесь топ-менеджером, уверен однажды это будет именно так.
Так вот, я утверждаю, что вы как руководитель будете регулярно озабочены необходимостью постоянно задавать весьма конкретные и повторяющиеся вопросы о том, как обстоят дела с уровнем клиентского сервиса (успевает ли организация обслуживать своих клиентов вовремя и так далее).
Ответы на них будут лучше, чем просто отчетность, которая отвечает не на конкретный вопрос, а на открытый.
Все подобные вопросы можно выписать, структурировать и передать алгоритмам, чтобы они уже отвечали.
Шаг #3. Деперсонифицировать принимаемые решения – Depersonalise Decisions making
Переход к фокусировке на тех данных, которые действительно нужны организации, ведет к созданию новой формы культуры, где данным выделяют центральное место, а все решения – деперсонализированны, потому что важно не мнение людей в комнате, а данные на которых оно строится.
Нет смысла бороться с HYPPO, все решения должны быть деперсонифицированны, потому что они говорят не про мнения отдельно взятых людей, а про реальные тренды, бенчмаркинг, результаты работы клиентов или уровень их удовлетворенности. Будь-то электронная коммерция или реальное производство, данные покажут, что идет не в соответствии с ожиданиями, и это никак не связано с персональной оценкой.
А если HYPPO по стечению обстоятельств стал читатель этой книги, то для него важно помнить, что роль HYPPO – диверсифицировать мнение людей, допуская споры и несогласия. Своим присутствие HYPPO должен стимулировать принятие решений на основании данных.
Шаг #4. Проактивный инсайт (прогноз) важнее реактивной аналитики – Proactive insights rather than reactive
В тот момент, когда вы получили данные и начали заниматься подготовкой инсайта, данные уже устарели. Поэтому вместо того, чтобы выполнять и готовить отчетность, людям нужно выполнить анализ, про который никто не спрашивал ранее. Такой анализ необходим ввиду того, что данные быстро устаревают, и ряд ключевых аспектов может быть не покрыт во время процесса принятия решения.
Шаг #5. Расширить полномочия Аналитиков – Empower your Analyst
Итак, для того чтобы Аналитик мог потратить свое рабочее время на анализ, о котором его никто не просил, у него должны быть достаточные полномочия, иначе, вместо подготовки регулярной отчетности, аналитик будет заниматься неструктурированным или слабоструктурированным анализом. Как ни странно, но data-driven организация вряд ли будет существовать в условиях регулярного процесса выпуска отчетности, на который тратится более восьмидесяти процентов времени работы команды. В одном из американских банков, где я однажды был на обмене опытом, была ситуация, когда люди выполняли регулярный процесс подготовки ежемесячной отчетности всего за 3 дня. Я спросил топ-менеджеров, а что люди делают остальное время, так как команда была достаточно большой. Они ответили – «Value Added активности», и все посмеялись. Признаюсь честно, до меня дошло не сразу. Под «делают Value Added активности» здесь подразумевалось, что аналитики использовали свое время, чтобы улучшить иные процессы организации по работе с данными и их продуктом – ежемесячной отчетностью.
Шаг #6. Треугольник ценности – Solve the Trinity
Внутри треугольника находятся метрики и инсайты, которые приводят к действию. На вершинах треугольника обозначены ключевые направления создания ценности с использованием данных:
• Поведение (Behaviour) – Необходимо думать широко при анализе поведения своих пользователей или клиентов. Это не просто данные, а поведение реальных людей.
• Результаты (Outcomes) – Научитесь связывать поведение клиентов с ключевыми показателями или критическими факторами успеха организации.
• Опыт (Experience) – Инсайты должны приходит через эксперименты, исследования, тестирование своих клиентов или поиск закономерности в их поведении. Этим необходимо постоянно заниматься.
Шаг #7. Создайте вокруг процесс – Got Process?
Data-driven организация – это не пункт назначения, а процесс или путь по которому идет организация, поэтому необходимо поддерживать его соответствующими артефактами и адекватными процессами. Этот процесс позволяет пользователям и сотрудникам применять тот или иной фреймворк работы с данными. Он не должен быть сложным и запутанным, а, скорее, должен отражать, кто и на каком конкретном шаге участвует в создании ценности с использованием данных.
Завершает Авинаш Кошик свой уникальный фреймворк одним из ключевых тезисов, без которого невозможно движение к data-driven организации, а именно: ответственным за данные, аналитику и поиск инсайтов в организации должно быть обособленное бизнес-подразделение (не IT).
В чем ценность data-driven организации
В 2011 году профессор MIT Эрик Брайнджолсфон провел любопытное исследование.[14]14
Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?
[Закрыть] Он проанализировал данные 330 различных компаний за пятилетний цикл, в рамках которого выявил взаимосвязь между производительностью труда, выручкой и культурой организации, где было видно, как data-driven культура влияла на результативности той или иной компании.
Согласно исследованию, DD процесс повышал результативность труда и выручку компании на шесть процентов. По данным исследовательской компании Nucleous Research за 2014 год, было выявлено, что за каждый вложенный доллар в решения и процессы по аналитике и работе с данными, компания получала в среднем 13,01 долларов.
Data-informed организации
Продолжаем главы для продвинутых. Пытаясь разобрать дальнейший текст, я прошу, не сильно налегайте на алкоголь. Мне очень хочется, чтобы вы это прочитали.
Итак, существование так называемых дата-центрированных организаций имеет свое обоснование. Понятно, каким образом их строить и зачем. Но есть ли здесь какой-то подвох?
В 2010 году Адам Моссери, VP по продукту новостной ленты в Facebook, высказал мысль о том, как важно не допускать полной централизации организации в отношении данных. Основная идея его выступления сводилась заключалась в том, что данные дают возможность проанализировать текущую ситуацию и выбрать и наиболее оптимальный путь.
Но, если говорить о возможности создания уникального или лучшего продукта, то в дополнение к подходу, сформулированному Адамом Моссери, известный блогер и писатель в области Digital, Эндрю Чен, сформулировал тезис наличия «локального максимума» в дата-центрированном процессе или продукте. Что это означает?
http://andrewchen.co/know-the-difference-between-data-informed-and-versus-data-driven/
Локальный максимум представляет точку, которую можно легко выявить с помощью данных, и она помогает инкрементально (небольшими шагами) оптимизировать выбранный процесс или продукт. Но данная точка никак не связана с лучшей конфигурацией продукта или процесса, которая даст максимальный результат. Иными словами, при выявлении локального максимума всегда существует другая точка, которая является по совместительству экстремумом или наиболее лучшей конфигурацией продукта, но она отсутствует в наблюдении, так как данных для ее выявления обычно недостаточно.
Таким образом, путь развития организации как чисто дата-центрированной, перешел к новой модели работы с данными – data-informed.
Данная модель предполагает, что данные используются при принятии решений, но не являются ключевым фактором, так как поиск лучшего продукта является цепочкой экспериментов, которые заранее предсказать невозможно.
Каким образом сместить фокус с данных на другие аспекты, не потеряв важность работы с данными?
Ключевыми здесь всегда будут стратегия или видение того, что организация планирует делать. Так, в своем выступлении Адам Моссери, рассказал об оптимизации пользовательской функции по загрузке фотографии в Facebook. Его команда провела ряд экспериментов по оптимизации процесса загрузки, руководствуясь при выборе того или иного интерфейса для пользователя только данными, начиная с кнопки и заканчивая изменениями во встроенных плагинах по поддержке браузера и навигатора для выбора файлов. Каждый из экспериментов оказался провальным, то есть не привел к увеличению конверсии активных пользователей сервисом загрузки фотографий.
В конечном счете, Моссери решил сменить тактику. Он оттолкнулся от данных, как стартовой точки анализа состояния воронки, и этапов, на которых пользователи по какой-то причине покидают Facebook. Затем он переработал подход, поставив во главу стола удобство пользователей и простоту.
Это дало определенные результаты, существенно увеличив конверсию пользователей. Конечное решение, выбранное его командой, не могло быть измерено только данными.
Data-informed или data-driven
При сравнении подходов ненамеренно вспоминается конфликт Стива Балмера (СЕО Mircosoft 2000-2014) с Linux Foundation, которую он однажды назвал «раковой опухолью, приклеившейся к настоящей интеллектуальной собственности». В отличие от Microsoft, разработчик в Linux Foundation делает всего один патч для платформы за весь свой цикл работы на ней.
Данный конфликт очертил рамки нескольких типов организаций. По разные стороны виртуальных баррикад оказались разные подходы, в том числе и к управлению данными и инновациями.
Традиционный подход дата-центрированной организации опирался на правило Парето, которое гласит: двадцать процентов усилий приносят восемьдесят процентов результата. Высокопроизводительные силы сконцентрированы в дата-центрированных корпорациях, где есть нормативы, KPI, и где установка тех или иных требований к данным прямо влияет на получаемый результат или выполнение какого-либо норматива.
В дата-центрированных организациях основной упор в дизайне потребительских продуктов и сервисов строиться, прежде всего, на проверке гипотезы, где конечный потребитель (пользователь) голосует за наиболее приемлемый для него продукт, услугу или интерфейс.
Другой тип организации, наоборот, не имеет явных KPI или рычагов управления. Это так называемые организации открытого, платформенного типа. К ним можно отнести одно из ключевых утверждений, что датацентрированные процессы не работают. С одной стороны, это пространство с неизвестными малоизученными переменными, где данные не могут однозначно повлиять на продукт, с другой, – этот тип организаций имеет одну отличительную черту, благодаря которой потребитель сам может стать создателем нового продукта или услуги. В таком случае сопутствующие аналитические сервисы, основанные на данных, позволяют потребителю самому создать для себя продукт который ему нравится.
В дальнейшем дата-центрированные организации могут использовать этот продукт для запуска на рынок. Так появилось много интересных продуктов, например, горные велосипеды, которые изначально придумали изобретатели в Калифорнии, переоборудуя специальные велосипеды со странным названием «балунеры» (или «кланкеры»).
Важным фактом является то, что единороги, то есть компании, капитализация которых измеряется в миллиардах долларов, появляются именно в организациях второго типа. Там, где нельзя ввести управление по показателям, а данные могут использоваться для сбора информации при принятии решения. Изучение long tail («длинного хвоста»), например в банкинге, является обязательным в надзорном регулировании. По основному замыслу принципов управления капиталом, разработанных Базельским комитетом, именно long tail может принести организации так называемый unexpected loss, то есть убытки, которые невозможно было предвидеть. Иными словами, «Черный лебедь».[15]15
Книга «Черный Лебедь. Под знаком непредсказуемости» Насим Таллеб.
[Закрыть] И для них нужно рассчитывать определенный размер капитала, но организация это должна сделать сама, так как регулятор (например, Центральный банк) этого сделать не может. По аналогии с unexpected loss, возможен также unexpected profit, когда вместо убытка организация может получить сверхприбыль.
Это и есть те самые единороги, появление которых невозможно предсказать, опираясь только на данные.
Отличить один тип организации от другого, помимо анализа самой формы, внутренних процессов и других артефактов, можно так же оперируя только аналитикой.
Цикл развития организаций
Правило Парето перестает работать для процессов или показателей, значения которых попадают ниже среднематематического от потраченных усилий или ресурсов. Это означает, что если организация пытается ввести измерение процессов, которые не приносят существенный результат, или нельзя явно выделить процесс, который дает существенный результат, то такой тип организации становится data-informed, который исключает такой тип организации как data-driven (или data-centric).
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?