Электронная библиотека » Наталья Хапаева » » онлайн чтение - страница 3

Текст книги "Big data простым языком"


  • Текст добавлен: 21 апреля 2022, 20:30


Автор книги: Наталья Хапаева


Жанр: Базы данных, Компьютеры


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 3 (всего у книги 12 страниц) [доступный отрывок для чтения: 3 страниц]

Шрифт:
- 100% +
Революция open-source и доступность технологий

Доступность технологий перешагнула барьер возможных применений, обогнав существующий спрос, а также приблизила так называемую точку сингулярности, за которой невозможно просчитать или спланировать возможный сценарий применения технологий.


Если рассмотреть эволюцию решений с использованием искусственного интеллекта, то в качестве интересных наблюдений, сделанных директором по маркетингу сервисов компаний «Яндекс», Андреем Сербрантом, можно привести в пример историю алгоритма AlphaGo[16]16
  Рекомендую посмотреть документальный фильм – АльфаГо.


[Закрыть]
. В конце 2014 эксперты оценивали возможность искусственного интеллекта победить профессионала в го как маловероятный факт.

Год спустя, в декабре 2015 года, профессиональное сообщество повысило шансы на победу, но для обучения всем возможным стратегиям искусственному интеллекту еще требовались десятки лет.

Всего восемь месяцев спустя алгоритм AlphaGo, разработанный в лаборатории DeepMind,[17]17
  Приобретена Google.


[Закрыть]
смог обыграть профессионала игры в го, обладателя 18–ти мировых трофеев и высшего девятого дана, лидера мировых рейтингов, Ли Седоля.

Разработка алгоритма заняла всего несколько лет, при этом алгоритм не просчитывал все возможные комбинации, он мог видеть только на 50 ходов вперед. Просчет всех возможных комбинаций требовал несоизмеримое количество вычислительных ресурсов, поэтому разработчики решили пойти другим путем. Они создали трехслойную сложную нейронную сеть, которая имитировала человеческую интуицию. При этом алгоритм AlphaGo делал по-настоящему оригинальные ходы. Например, ход номер 37 в третьей партии против Ли Сидоля был действительно неожиданным для большинства профессионалов. Когда разработчики заглянули в логику алгоритма, они увидели, что AlphaGo выбрал этот ход, так как он был маловероятным ходом с точки зрения человека. Вероятность, с которой профессионал мог совершить этот ход, составляла 1:10000. Ли Сидоль проиграл эту партию, но в следующей игре он совершил аналогичный ход под номером 76, который был так же маловероятным, но, по его утверждению, он был единственным. Фактически, Ли Сидоль скорректировал свое понимание игры го, в которую он играл с раннего детства, и применил новую отличную тактику, которую никогда ранее не применял.

Роль AlphaGo здесь совершенно не заменима при понимании основ игры го, потому что алгоритм смотрит на нее не так, как человек. Алгоритму не важны получаемые очки, потому что выиграть можно всего лишь с перевесом в одно очко, что и делает алгоритм. В результате получается новая, так называемая «мягкая» тактика, когда алгоритм стремится не к максимизации очков, а к устойчивому равновесию.

Появление таких сервисов изменяет саму суть игры, позволяет по-иному взглянуть на нее, применяя более зрелые подходы, которым учит нас алгоритм.

Сам алгоритм состоит из трех основных слоев:

• Стратегическая сеть – слой, который перебирает в памяти результаты всех сыгранных партий;

• Оценочная сеть – слой, который оценивает эффективность текущих позиций;

• Поиск по дереву – слой, который прогнозирует наиболее ценный ход руководствуясь эффективностью.

Если разобрать инфраструктуру, на которой был построен алгоритм AlphaGo, то это не какой-то сложный вычислительный суперкомпьютер. Его обучение проходило на пятидесяти графических процессорах в облаке Google Cloud. Если соотнести с рынком, то пятьдесят графических процессов эквивалентны небольшой майнинговой ферме по добыче криптовалюты, а использование облачных технологий делает весь процесс максимально мобильным.

Все оценки экспертов о невозможности существования такого алгоритма были разбиты. Это означает, что точка сингулярности технологий, о которой так много говорили, находится ближе, чем все думали[18]18
  Оценка известного писателя-фантаста Вернона Винджу – 2030, а известного изобретателя и футуролога Реймонда Курцвейла – 2045.


[Закрыть]
. Сегодня в разработке находится множество проектов, которые качественно иным образом упростят взаимодействие человека с окружающим миром.

Как ни парадоксально звучит, но хоть AlphaGo и работает на данных, совершая ход, он может учитывать и иные перспективы. Это означает, что если рассмотреть алгоритм как организацию, она одновременно демонстрирует черты как data-driven, так и data-informed. Возможно, это то будущее, которое будет наиболее эффективным в условиях постоянно меняющегося мира.

4-я промышленная революция, или Почему человек больше не нужен для поиска инсайтов

Говоря о возросшей роли данных в построении организаций нового типа, нельзя не отметить фундаментальный труд экономиста и основателя World Economic Forum Клауса Шваба, согласно которому мы переживаем четвертую промышленную революцию, основанную на данных.

Данные, алгоритмы распознавания и нейронные сети – все это позволило изменить традиционные процессы, вытеснить из них человека как необходимый элемент для обработки информации.

Отличным примером этого может быть сервис Stafory «Робот Вера» или Intervio от команды PryTek, который находит потенциальных кандидатов на выбранную позицию, обзванивает их, проводит их опрос и делает оценку соответствия потенциального кандидата предлагаемой позиции с использованием основных методик управления людьми, такими как Big Five. Происходит это благодаря сбору данных из баз резюме, таких как HeadHunter или TrudVsem. Так что, процесс поиска и отбора кандидатов на определенные позиции, уже сегодня может проходить без участия человека. Intervio – наоборот представляет собой сервис, где соискатель просто рассказывает свою историю, отвечая на вопросы, которые заранее записаны в виде видео интервью, а программа обрабатывает изображение, голос и получаемый текст и выдает оценки по психотипу, навыкам, используя сложный алгоритм нейролингвистического анализа. Это такой специальный алгоритм, который позволяет машине понять смысл слов. Например, «я хмурый иду по осеннему лесу» и «я иду по хмурому осеннему лесу» – два похожих предложения, но смысл у них разный. Машины уже способны уловить разницу в этом смысле.

С одной стороны, это серьезная трансформация процесса процесс подбора и резкое снижение его стоимости, с другой – чтобы пользоваться таким процессом, организации необходимо быть готовой внедрять такие сервисы в режиме Plug and Play, постоянно подключая эффективные цифровые сервисы и заменяя привычные процессы, требующие участия человека.

Датчики, телеметрия, бесконечные потоки данных, формирующие океан информации, создали новую цифровую экосистему. В ней с повышением интеграции данных в текущие процессы меняется и роль человека. На смену традиционным профессиям индустриальной экономики приходит запрос на новые навыки в отношении управления и интеграции данных. Рынок и трансформация модели конкуренции открывают новые ниши для небольших игроков, которые формируют основное давление на современные большие компании. Чтобы быть эффективным, бизнесу придется акцентировать больше внимания в своем развитии на создание адекватной инфраструктуры сбора и обработки данных, а также решить ряд важных задач. Среди них ключевую роль играют методология и стандартизация протоколов передачи данных, информационная безопасность, аудит и управление качеством данных.

Потому что какими бы продвинутыми ни были алгоритмы, все они отступают при встрече с аномалиями в данных, причина которых может быть в некачественной информации. Поэтому проектирование, зачистка, контроль и арбитраж целостности – это одни из самых важнейших задач, которые придется решать в новой цифровой экономике.

Переход к новой парадигме работы с аналитикой, данными и информацией потребует от организации более высокого уровня зрелости, а это означает, что бизнес будет вынужден решить невыполнимую задачу по обучению специалистов и интеграции новейших технологий работы с данными в кратчайшие сроки, изменив при этом роль и ответственность участников цепочки создания информационного контента.

В этой книге я разберу основные приемы и модели, которые можно применять при выполнении этих задач, и которые помогут ответить на этот вызов. Мы с вами проанализируем: как строить команду, как выглядят новые профессии и какие методы управления могут применяться. Я расскажу, как можно разобрать кейсы, и покажу, как спроектировал новые сервисы, которые смогут заменить традиционные аналитические записки или отчетность.

Глава 2
Стратегия данных

С чего начинается стратегия данных?

Стратегию данных каждый из ключевых менеджеров компании сегодня понимает по-разному. А некоторые ее вообще до сих не понимают. Оно и понятно, много букв. Это как вишенка на торте инноваций и технологий, в котором еще надо уметь разбираться, чтобы просто банально насладиться тем вкусом, который есть. В том числе по-разному ее понимают и ключевые игроки рынка, производители программного обеспечения, разработчики и архитекторы данных. Нельзя просто взять, собрать всех вместе и наивно полагать, что получится договориться о чем-то одном.

Жизненный цикл данных

Данные – это что-то непонятное, неопределенное, как бесформенный прозрачный кислород. Вроде есть, вроде важен, но с чего начать?

Но во всех взглядах есть общее ядро, которое разделяется каждым из участников и является одним из ключевых факторов выбора и реализации стратегии – это понимание цикла работы с данными. Я выделил несколько моделей, иллюстрирующих наиболее полный жизненный путь данных внутри организации.

Например, модель Малькольма Чисхолма[19]19
  Известный эксперт Малькольм Чисхолм (Malcolm Chrishom), который работает в области управления данными более 25 лет, подготовил и опубликовал концепцию жизненного цикла данных.


[Закрыть]
выделяет семь активных фаз взаимодействия с данными:

1. Data Capture – создание или сбор значений данных, которые еще не существуют и никогда не существовали в компании.

а. Data Acquisition – покупка данных, предложенных внешними компаниями;

b. Data Entry – генерация данных ручным вводом, при помощи мобильных устройств или программного обеспечения;

c. Signal Reception – получение данных с помощью телеметрии (интернет-вещей).

2. Data Maintenance – передача данных в точки, где происходит синтез данных и их использование в форме, наиболее подходящей для этих целей. Она часто включает в себя такие задачи, как перемещение, интеграция, очистка, обогащение, изменение данных, а также процессы экстракции-преобразования-нагрузки;

3. Data Synthesis – создание ценности из данных через индуктивную логику, использование других данных в качестве входных данных.

4. Data Usage – применение данных как информации для задач, которые должно запускать и выполнять предприятие. Использование данных имеет специальные задачи управления ими. Одна из них заключается в выяснении того, является ли законным использование данных в том виде, в котором хочет бизнес. Это называется «разрешенным использованием данных». Могут существовать регулирующие или контрактные ограничения на то, как фактически можно использовать данные, а часть роли управления данными заключается в обеспечении соблюдения этих ограничений.

5. Data Publication – отправка данных в место за пределами предприятия. Примером может служить брокеридж, который отправляет ежемесячные отчеты своим клиентам. После того, как данные были отправлены за пределы предприятия, де-факто невозможно их отозвать. Неверные значения данных не могут быть исправлены, поскольку они уже недоступны для предприятия. Управление данными может потребоваться, чтобы помочь решить, как будут обрабатываться неверные данные, которые были отправлены инвесторам.

6. Data Archival – копирование данных в среду, где они хранятся, до тех пор, пока не понадобятся снова для активного использования и удаления из всех активных производственных сред.

7. Data Purge – удаление каждой копии элемента данных с предприятия. В идеале это необходимо делать из архива, так как реализация задачи управления данными на этом этапе жизненного цикла данных определит, что очистка действительно была выполнена должным образом.


При работе с описанной моделью стоит отметить важные допущения:

• «Жизненный путь» – не совсем корректный термин, потому что данные сами себя не воспроизводят, более близкое значение – «история данных», но предлагается его не менять, из-за того, что текущего значения придерживается большинство участников рынка.

• Данные не обязательно должны проходить все семь фаз взаимодействия.

• Фазы взаимодействия не обязательно выстраиваются в конкретную последовательность. В реальности фазы могут проявляться в хаотичном порядке.

• Часть профессионального сообщества так же использует аббревиатуру ILM (Information Lifecyle Management). Разница[20]20
  По версии DAMA Internation – независимая некоммерческая профессиональная организация, разрабатывающая стандарты по управлению данными DMBOK (Data Management Book of Knowledge).


[Закрыть]
между двумя понятия состоит в следующем:



Иными словами, по одной из версий управление данными является подмножеством цикла управления информацией, а сами подходы по управлению информацией уже являются подходами по управлению знаниями (Knowledge Management) в организации.

Но стратегия управления данными сама по себе является самостоятельным звеном в этой сложной цепочке. Поэтому, даже не рассматривая всю цепочку управления знаниями, можно с уверенностью сказать, что стратегия управления данными несет в себе самостоятельную ценность.

Утомил? А представьте, что в этом всем копается множество людей, которые в буквальном смысле спорят о дефинициях, правилах и отношениях.

Миссия компании и данные

Итак, при построении стратегии, вслед за определением ключевых точек работы с данными, обычно выбирается традиционный путь создания и разработки любой стратегии:

• Определение стратегической позиции – ответ на несколько ключевых позиций во внутреннем и внешнем окружении компании (с точки зрения регулятора, конкурентов, ресурсов и так далее), в том числе декомпозиция и интеграция миссии и ключевых факторов успешности;

• Определение стратегического выбора[21]21
  Например, по модели Johnson и Scholes.


[Закрыть]
 – ответ на несколько ключевых вопросов: как именно организация будет конкурировать? В каком направлении? Как организация достигнет выбранного направления?

• Оценка и выбор стратегии – ответ на выборы по приемлемости предложенной стратегии.

Это основы любого стратегического планирования, которое мы не будем разбирать в этой книге, поэтому про него лучше почитать отдельно. Если собрать все основные подходы, которые в том числе известны мне, то получается следующая картинка:


Ключевые фреймворки при подготовке стратегии данных для организации


1 Образована от сокращения шести английских слов: Political (политика), Economic (экономика), Social (общество), Technological (технология), Environmental (развитие) и Legal (законность). Данный анализ направлен на выявление политических, экономических, социальных, технологических и юридических или законодательных аспектов внешней среды, которые могут повлиять на стратегию компании.

2 Методика для анализа отраслей и выработки стратегии бизнеса, разработанная Майклом Портером в Гарвардской школе бизнеса в 1979 году. Методикой выделяются пять сил, которые определяют уровень конкуренции и, следовательно, привлекательности ведения бизнеса в конкретной отрасли.

3 Методика для анализа бизнеса, фокусирующаяся на доступных ресурсах в конкретной отрасли.

4 Матрица Ансоффа представляет собой поле, образованное двумя осями – горизонтальной осью «товары компании» (подразделяются на существующие и новые) и вертикальной осью «рынки компании», которые также подразделяются на существующие и новые.

Одно из ключевых свойств данных, которое необходимо учитывать при проектировании стратегической позиции компании – тот факт, что данные являются не только активом, который необходимо монетизировать, но и обязательством, за которым необходимо крайне внимательно следить во избежание штрафов, издержек или рисков, на которые компания должна аллоцировать соизмеримые резервы.

Перекладывая цикл данных на бизнес-приоритеты (иными словами, декомпозируя бизнес-модель на сильные факторы в текущей конфигурации), получаем следующую матрицу:

Матрица позволяет разобрать на компоненты ключевой путь создания ценности из данных.

Таким образом, всегда есть два типа стратегии, которые будут развиваться:


Стратегия данных и жизненный цикл данных


• Стратегия защиты – сводится к минимизации риска владения данными. Она разворачивается вокруг ключевых активностей, таких как комплаенс, регулирование, выявление мошенничества с данными и других. Защитная стратегия так же ставит ключевой упор на стандартизации, управлении и оперативном выявлении рисков.

• Стратегия нападения – сводится к поддержке роста бизнеса (монетизации, росту конверсии и так далее). Ключевые активности обозначаются как новые знания о клиенте, поддержка решений и маркетинговые кампании.

Конечно, любой организации необходимо следовать обеим стратегиям, но достижение баланса потребует от нее формулирование понимания аппетита к риску – единой позиции организации, так как эти две стратегии будут конкурировать за ресурсы самой организации. Огромное значение в этом будет иметь и размер самой организации, для таких моделей защитная модель всегда выглядит более предпочтительной, а для небольших компаний модель по поддержке роста бизнеса, наоборот, выглядит более преимущественной. Решения по выбору одной или другой всегда создают так называемый trade-off.

В качестве примера можно привести известную трилемму, сформулированную Яном Григгом (Ian Grigg).


Трилемма Яна Григга и многомерная стратегия данных


Трилемма, сформулированная Ian Grigg в описании концепции Indentity-as-an-Edge. При достижении решения в одной из вершин, остальные вершины теряют ценность. Решение трилеммы подразумевает применение определенных подходов и технологий, например, распределенные реестры (блокчейн).

Таким образом, стратегия данных имеет несколько измерений для анализа, каждое из которых необходимо учесть в соответствующей матрице по аналогии с тем, как это сделано для вершин «жизненный цикл», «бизнес ценность», «стратегическая позиция».


https://hbr.org/2017/05/whats-your-data-strategy.


Так, по данным HBR выявлена, в том числе и зависимость от степени регулирования и выбираемой стратегии.

Ключевые стейкхолдеры

С точки зрения данных как актива, стратегия должна помогать использовать информацию в организации, поэтому основными стейкхолдерами стратегии в первую очередь должны быть зарабатывающие подразделения. С другой стороны, необходимо помнить, что успех во взаимоотношениях с клиентом лежит сегодня в том числе в возможности уметь рассказать о клиенте больше, чем клиент знает о себе сам.

Для данных как обязательства, помимо регулятора, есть еще бизнес-сообщество и клиенты, которым необходимо предоставлять актуальную информацию о соответствии требованиям законодательства. Например, новое европейское законодательство GDPR, вступившее в силу с 31 мая 2018, обязывает организации предоставлять конечным пользователям информацию и инструменты управления их данными.


Ключевые стейкхолдеры стратегии данных


У каждого этапа есть конкретный стейкхолдер, который может оказать наибольшее влияние на организацию. Их нужно учитывать в первую очередь.

Учет интересов большего числа стейкхолдеров позволяет снизить издержки на коммуникацию и хранение данных в будущем, а также повысить шанс на их монетизацию.


https://habr.com/company/digitalrightscenter/blog/344064/.


Организациям, оперирующим на нескольких территориях, юрисдикциях или отраслях, необходимо учесть взаимное влияние на потенциальный размер рисков, которые создают специальные регуляции. Например, Общий Регламент по Защите Данных (или GDPR) применяет ряд следующих принципов[22]22
  По итогам обзора Digital Rights Center.


[Закрыть]
:

1) Законность, справедливость и прозрачность. Персональные данные должны обрабатываться законно, справедливо и прозрачно. Любую информацию о целях, методах и объемах обработки персональных данных следует излагать максимально доступно и просто.

2) Ограничение цели. Данные должны собираться и использоваться исключительно в тех целях, которые заявлены компанией (онлайн-сервисом).

3) Минимизация данных. Нельзя собирать личные данные в большем объеме, чем это необходимо для целей обработки.

4) Точность. Личные данные, которые являются неточными, должны быть удалены или исправлены (по требованию пользователя).

5) Ограничение хранения. Личные данные должны храниться в форме, которая позволяет идентифицировать субъекты данных на срок не более, чем это необходимо для целей обработки.

6) Целостность и конфиденциальность. При обработке данных пользователей компании обязаны обеспечить защиту персональных данных от несанкционированной или незаконной обработки.

Стоит отметить ряд важных аспектов, которые сегодня являются общими для значительного количества регуляторных юрисдикций (регуляций).

• Право на забвение, которое дает европейцам возможность удалять свои личные данные по запросу (во избежание их распространения или передачи третьим лицам).

• Право на переносимость данных (right to data portability) является новацией в правилах обработки данных ЕС, введенной GDPR. Данное право заключается в том, что компании обязаны бесплатно предоставлять электронную копию персональных данных другой компании по требованию самого субъекта персональных данных.

• GDPR устанавливает высокие требования в отношении формы получения согласия на обработку данных. Согласие человека на обработку его персональных данных должно быть выражено в форме утверждения или в форме четких активных действий пользователя. Согласие на обработку персональных данных будет недействительно, если у пользователя не было выбора или возможности отозвать свое согласие без ущерба для самого себя. Если пользователь дал согласие на обработку своих персональных данных, контроллер должен иметь возможность продемонстрировать это.


GPDR не рекомендует использовать по умолчанию поля о согласии с уже поставленной галочкой или другие методы получения согласия по умолчанию. Согласие также не может быть выражено в виде молчания или бездействия пользователя. Информация о порядке отзыва согласия на обработку персональных данных должна быть размещена таким образом, чтобы пользователь мог легко ее найти.

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> Предыдущая | 1 2 3
  • 3 Оценок: 1

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации