Читать книгу "Риски цифровизации: виды, характеристика, уголовно-правовая оценка"

Текст добавлен: 27 сентября 2023, 19:00

Автор книги: Коллектив авторов

Жанр: Прочая образовательная литература, Наука и Образование

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 3 (всего у книги 24 страниц) [доступный отрывок для чтения: 6 страниц]

Скачать книгу

Шрифт:

- 100% +

§ 2. Большие данные

Понятие. Большие данные (Big Data) – это крайне большой объем структурированных и неструктурированных данных произвольного типа, обрабатываемый в горизонтально масштабируемых информационных системах. Назначение систем Big Data – помогать в принятии решений и инициировать действия на основе анализа цифровой информации. При помощи систем Big Data принимаются решения о необходимости профилактики эпидемий, об изменении полётного графика воздушных судов, о пригодности деталей автомобиля для эксплуатации, о необходимости провести внеплановый ремонт на строительных объектах и многие другие.

История. Определение Big Data появилось в 2008 г. Безусловно, до этого времени существовали методологии анализа информации, однако стоимость хранения и обработки данных была столь велика, что ограничения в ресурсах либо сводили на нет полезность аналитических отчетов из-за низкой скорости их предоставления, либо качество отчетов было столь низким, что они не имели практического применения.

Вместе с тем, объемы данных росли лавинообразными темпами: пользователи социальных сетей генерировали огромные объемы информации, корпорации копили сведения о клиентах, индустриальные предприятия использовали датчики для контроля технологических процессов, в дополнение к ним в широкой эксплуатации появились домашние приборы и автоматизированных системы, которые без участия человека используют интернет, автоматически отсылают информацию о своем состоянии, получают и обрабатывают команды пользователей и тем самым также порождают огромные объемы данных.

Усиливалась и потребность в анализе этих данных – постоянно шел поиск ответа на бизнес-задачи: предсказание потребительского поведения с целью повысить эффективность маркетинговой активности; цифровое моделирование индустриальных объектов, с целью снизить затраты на дорогостоящие испытания; быстрый анализ данных с погодных датчиков для обеспечения безопасности полетов и др.

К 2008 г. технологический прорыв в области микропроцессорных технологий и в производстве систем хранения данных на порядки снизил стоимость хранения и обработки. Это упростило и удешевило доступ к вычислительным ресурсам до недостижимого прежде уровня, что сделало возможным дальнейший прогресс в развитии аналитических систем.

Важнейшей вехой в истории систем класса Big Data является развитие технологии кластеризации, реализующей горизонтальное масштабирование – объединение разрозненных единиц вычислительной техники в общую вычислительную систему с единым управлением.

Повысилась доступность систем Big Data для широкого круга разработчиков программного обеспечения благодаря изменению бизнес-моделей глобальных технологических компаний: появились трансконтинентальные IT-инфраструктуры, позволяющие использовать практически неограниченные вычислительные мощности и системы хранения без первичных инвестиций – на условиях оплаты аренды ресурса с почасовой тарификацией. Такого рода бизнес-модели сняли финансовые ограничения для малых технологических компаний и дали им возможность активно разрабатывать аналитические инструменты для широкого круга потребителей.

Предпосылками активного развития систем Big Data стали:

– рост объема цифровой информации и потребность коммерческих и государственных организаций в результатах ее анализа;

– технологический прорыв в области микроэлектроники;

– деятельность саморегулирующихся сообществ разработчиков программного обеспечения;

– появление новых бизнес-моделей коммерческих организаций, обеспечивающих широкий доступ к вычислительным ресурсам.

Свойства систем Больших данных. Определяющими свойствами, по которым системы анализа и сбора информации относят к классу Big Data, являются объем обрабатываемых данных, их разнородность, возможность горизонтального масштабирования. Выделяют также ряд потребительских свойств системы, такие как скорость обработки данных, потребительская ценность, достоверность и другие.

Основное свойство систем Big Data – обработка крайне больших массивов данных объем которых постоянно и с большой скоростью увеличивается. Речь идет о данных миллионов финансовых операций, десятках миллионов переходов на веб-сайтах интернет-магазинов, сотен миллионов значений датчиков погоды, снимающих показания по всему миру, миллиардов записей пользователей на персональных страничках социальных сетей, десятков миллиардов действий пользователей поисковых систем и мобильных приложений.

Разнородность данных – это возможность обработки в системе разнообразных типов данных и их структур. Это свойство характеризует возможность системы проводить анализ неструктурированных данных: «сырых» текстов, медиафайлов – аудиофайлов, видеофайлов и файлов изображений; слабоструктурированной информации: например, новостных каналов, электронных таблиц; структурированных данных реляционных СУБД и данных, полученных в виде структурированного ответа на запрос на специализированных языках работы с данными.

Скорость обработки означает возможность системы принимать и обрабатывать данные в необходимом объеме за ограниченное время. Многие системы Big Data предназначены для сбора информации из большого количества источников в режиме реального времени и их анализа также в режиме реального времени. Пример – медицинские устройства, предназначенные для сбора данных о здоровье и мониторинга состояния пациентов. Предназначение и важность этих систем требует собирать, анализировать эти данные и затем передавать результаты медицинскому персоналу за минимальное количество времени. Необходимость реализации интернета вещей медицинского оборудования создает запрос на обеспечение высокой скорости передачи и обработки данных.

Возможность горизонтального масштабирования – это возможность увеличить производительность и емкость системы путем подключения аппаратных или программных ресурсов таким образом, чтобы они работали как единое логическое целое. Этот механизм также называется кластеризацией вычислительных систем. Если кластеру требуется больше ресурсов для повышения производительности, обеспечения более высокой доступности, администратор может масштабировать вычислительный ресурс, добавляя в кластер больше серверов и/или хранилищ данных.

Поддержка горизонтальной масштабируемости подразумевает возможность увеличивать количество и заменять узлы «на лету», не значительно прерывая функционирование системы. Например, распределенная система хранения данных Cassandra, включает сотни узлов, размещенных в различных дата-центрах. Поскольку оборудование масштабируется горизонтально, Cassandra является отказоустойчивой и не имеет одной критичной точки отказа.

Еще одно преимущество заключается в том, что теоретически производительность горизонтально масштабируемых систем не ограничена. Производительность зависит только от количества узлов, подключённых к системе. Это драматически отличает системы с горизонтальным масштабированием от многих традиционных систем обработки данных в которых при увеличении вычислительного ресурса производительность системы в целом значимо не растет. Это приводит к серьезнейшим функциональным ограничениям традиционных систем.

Таким образом, поддержка горизонтального масштабирование обеспечивает возможность роста объемов данных и их анализа, при котором результат анализа не теряет своей полезности за время расчета. Например, оценка ситуации на дороге для системы автопилотирования должна быть рассчитана за доли секунды – в противном случае, такая оценка просто не нужна.

Примером технологического решения реализации горизонтального масштабирования является Hadoop – проект фонда Apache Software Foundation. Hadoop это библиотека для разработки программного обеспечения предназначенная для создания и выполнения программ, работающих на кластерах из сотен и тысяч узлов. Hadoop – библиотека с открытым т. е. бесплатно распространяемым и дающим возможность менять под свои нужды, программным кодом, практический инструмент разработчиков и архитекторов IT-инфраструктур.

Потребительская ценность системы относится к ключевым потребительским свойствам систем больших данных. Ценность системы – это ее пригодность для получения практически применимых выводов и принятия решений.

Наличие огромных объемов данных необходимо для анализа и, безусловно, существует прямая связь между данными (информации представленной в цифровом виде) и знаниями (достоверными представления о предметах и явлениях действительности), но из наличия взаимосвязи не следует означает, что в Big Data всегда есть знания и они могут быть извлечены. Если на их основании данных нельзя сделать полезных выводов, вся система не будет иметь ценности.

Технологии анализа позволяют автоматически находить в потоках данных зависимости, которые не в состоянии выявить человек, такие как, например, влияние атмосферного давления на покупку молочной продукции. Однако, если атмосферное давление за анализируемый период было приблизительно одно и тоже, собранные данные не будут содержать знания о существующей взаимосвязи и ценность системы будет нулевой.

Важной частью инициатив в области больших данных является понимание того, каковы затраты и выгоды от сбора и анализа данных. Необходим обоснованный прогноз, что в конечном счете получаемый результат анализа принесет конкретную пользу.

Качество данных и достоверность системы – свойства, которые показывают, что данные были получены из доверенных источников, в неискаженном виде, по доверенным каналам.

В случае, если анализ проводится на основе искаженных данных, выводы и решения не будут корректными. Например, сообщения в Twitter содержат хэш-теги, сокращения, опечатки, указание личных мнений и т. д. Таким образом данные не являются качественными т. к. искажение текста может привести к искажению заложенного в сообщения смысл. Впрочем, Twitter вызывает сомнения и как источник изначально достоверных данных. А если невысока исходная достоверность их сбор и анализ бесполезны.

Следующий пример относится к использованию данных систем глобальной навигации: часто GPS рассчитывает недостоверные координаты местоположения, особенно при размещении приемника в городских районах. Спутниковые сигналы теряются и искажаются, когда они отражаются от высоких зданий или других сооружений. Как единственный источник данных спутники сами по себе недостоверны. Для повышения качества данные о местоположении следует объединить со сведениями из других источников данных, например, с данными акселерометра или сигналами вышек сотовой связи.

Технологии систем Больших данных. Базовыми технологиями систем Big Data являются технологии сбора, анализа и представления данных.

Технологии сбора:

– смешение и интеграция данных (data fusion and integration) – набор техник для интеграции разнородных данных из разнообразных источников в целях анализа (например, обработка естественного языка, включая анализ настроения говорящего – тональности высказывания);

– краудсорсинг – привлечение широкого и заранее не определенного круга лиц для повышения ценности данных без вступления в трудовые отношения с этими лицами.

Технологии анализа:

– прогнозная аналитика – выявление закономерностей в имеющихся данных, помощь в оценке происходящих процессов и прогнозирование дальнейших событий;

– классификация – отнесение объекта к группе по определенному признаку;

– кластерный анализ – автоматизированное формирование сравнительно однородных групп и отнесение к ним объектов (например, по ряду поведенческих факторов можно выяснить намерение человека украсть что-либо: на основании схемы перемещения покупателя по торговому центру определить, что его поведение не является обычным и предотвратить кражу);

– регрессионный анализ – выявление вероятных последствий (например, можно смоделировать дорожные аварии как последствия сочетания скорости, дорожных условий, погоды, трафика);

– обучение ассоциативным правилам – определение непрямых зависимостей (например, рост количества покупок спичек при покупке мяса, но только в случае приобретения маринада);

– пространственный анализ (Spatial analysis) – класс методов с использованием топологической, геометрической и географической информации для обоснования градостроительных решений;

– машинное обучение – применение программ, которые независимо от человека самомодифицируются на основании обрабатываемых данных;

– классический статистический анализ;

– получение комплексных прогнозов на основе базовых моделей;

– создание самомодифицируемых систем, сходных по структуре с головным мозгом человека.

Технологии представления данных. К ним относится визуализация аналитических данных – представление информации в виде рисунков, диаграмм с использованием интерактивных возможностей и анимации как для получения результатов, так и для применения в качестве исходных данных в целях дальнейшего анализа человеком.

Прикладные технологии:

– имитационное моделирование – создание цифровых двойников, которые с заданной точностью имитируют поведение объектов в реальной жизни. В современной индустрии существенная часть испытаний перенесена в цифровое пространство. Довольно часто появляется бизнес-задача создания цифрового двойника целого предприятия для прогнозного мониторинга его деятельности;

– распознавание образов – технологии, преобразующие аудиоинформацию в текст, изображение в классификационные признаки, что позволяет классифицировать изображения и определять их автора.

Широко используются и другие прикладные решения, основанные на технологических возможностях Big Data.

Области применения Больших Данных.

Здравоохранение. Сфера здравоохранения в настоящее время порождает огромное количество информации, поэтому применение систем Big Data обладает серьёзным потенциалом и определяет будущее цифрового здравоохранения. Системы Big Data в сфере здравоохранения создают со следующими целями:

– снижение стоимости лечения благодаря повышению качества постановки диагноза;

– прогнозирование вспышек эпидемий, а также помощь в решении того, какие профилактические меры можно принять, чтобы минимизировать последствия эпидемии;

– диагностика – расширение списка заболеваний, которые можно выявить по косвенным признакам на ранних стадиях и предотвратить их развитие, что, в свою очередь, сделает лечение более легким и эффективным;

– усиление эффективности лечения с ростом глобальных баз знаний о пациентах, а не только личных знаний врача;

– повышение уровня доверия пациентов к официальной медицине, снижение уровня доверия к шарлатанам, благодаря возможности обосновывать применяемые методы лечения.

Пример технологического решения – носимые устройства и датчики на теле, которые могут обеспечивать снятие, передачу данных о состоянии здоровья в реальном времени и фиксацию их в электронной медицинской карте пациента. Такие технологии были разработаны, в частности, компанией Apple и получили названия Apple HealthKit, CareKit и ResearchKit. Основная цель – дать возможность пользователям и их врачам хранить свои медицинские записи и получать доступ к ним в режиме реального времени на своих телефонах. Это повышает качество диагностики и мониторинга текущего состояния.

Государственное управление. Службы государственного управления ежедневно должны обрабатывать огромное количество данных. Для выполнения своих функций им приходится отслеживать разнообразные источники и базы данных о гражданах, росте их потребностей, энергетических ресурсах, данных географических обследований и многие другие. Надлежащие изучение и анализ этих данных существенно помогают решать насущные проблемы, например:

– принятие на основе актуальных данных более быстрых и обоснованных решений относительно социальных программ;

– выявление событий и определение места их возникновения, которые требуют немедленного реагирования, например, экологическое состояние конкретного района или области;

– выявление и прогнозирование кассовых разрывов в местных бюджетах;

– контроль целевого использования земли и других ресурсов;

– мониторинг безработицы;

– снижение уровня угроз терроризма;

– организация высокоэффективных систем государственной кибербезопасности;

– выявление обманов, подлогов и предоставления недостоверных сведений;

– выявление лиц и организаций, уклоняющихся от уплаты налогов;

– обнаружение и изучение внезапных инфекций, вызванных недоброкачественными продуктами питания.

Логистика. Технологии Big Data используются в муниципальных, коммерческих организациях, а также частными лицами в целях оптимизации логистических операций. При помощи больших данных решаются такие логистические задачи:

– планирование маршрута и оценка времени движения по маршруту, на основе данных систем навигации;

– оптимизация индивидуального маршрута на основе данных по загруженности дорог за счет использования нескольких видов транспорта;

– выявление аварийных ситуаций, например, по отклонению от маршрута, простоям, потере сигнала или внезапному снижению веса транспортного средства;

– управление городским трафиком на основе оценки загруженности дорог и оценки структуры трафика в реальном времени;

– повышение уровня безопасности дорожного движения (обработка данных в реальном времени и прогнозный анализ используют данные службы безопасности дорожного движения для выявления областей с повышенным риском дорожно-транспортных происшествий, что помогает уменьшить количество аварий и увеличить уровень безопасности дорожного движения).

Пример технологического решения: сервис «Яндекс такси». Сервис использует огромное количество данных, касающихся водителей, их транспортных средств, местоположения, результата каждой поездки каждого транспортного средства и т. д. Все эти данные анализируются и применяются для прогнозирования предложения, спроса, местоположения водителя и тарифов, которые будут установлены для каждой поездки. Это повышает качество оказываемой услуги и выручку владельцев сервиса. Обладая возможностями обработки Больших данных, сервис вовлекает и удерживает клиентов сервиса, независимых водителей. Планирование маршрутов в объезд пробок положительно сказывается и на общей загруженности дорог.

Медиа и индустрия развлечений. Социальные и другие медиаплатформы являются одним из самых значимых источников огромных объемов данных. С помощью платформ люди реализуют свои социальные потребности. Для формирования и предложения индивидуальной подборки контента, который понравится конкретному человеку (музыка, видео, новости) системы анализа решают задачу кластеризации. Система выявляет людей со сходными вкусами, объединяет их в группы и предлагать всей группе контент, понравившийся нескольким членам этих групп.

В обмен на удобства, которые создают медиасервисы, бизнес-подразделения получают возможность делать на основе этой же информации более эффективные рекламные кампании, выявлять лояльность к бренду и решать другие бизнес-задачи потребительского поведения:

– прогнозировать интересы аудитории;

– оптимизировать потоки на платформах распространения цифрового мультимедиа;

– получать отзывы клиентов и данные об их враждебном отношении к бренду;

– проводить эффективный таргетинг рекламных объявлений для СМИ.

Пример технологического решения – музыкальные сервисы (Deezer, Spotify и др.) – платформы для предоставления музыки по подписке с использованием аналитики больших данных. Сервисы осуществляют сбор данных от всех пользователей по всему миру с целью дальнейшего формирования рекомендаций индивидуально для каждого пользователя.

В некоторых случаях системы на основе данных о прослушивании определенных стилей и композиций выявляют взаимосвязь между воспроизводимым музыкальным произведением и сиюминутным настроением пользователя. Такого рода данные могут использоваться для оптимизации рекламных объявлений и воздействия средствами рекламы на людей с целью побудить их к спонтанным покупкам.

Мониторинг и прогнозирование погоды. Эта область применения является ресурсоемкой вычислительной задачей. Службы наблюдения за погодой развернуты по всему земному шару, в сборе информации задействованы спутники, датчики давления, скорости ветра, температуры и другие метеодатчики. Для анализа погоды также используются архивные данные наблюдений прошлых десятилетий. Эта информация необходима для прогнозирования погодных явлений и изменения условий окружающей среды.

Исторический пример технологического решения – IBM Вeep Thunder – исследовательский проект компании IBM, обеспечивающий прогнозирование погоды посредством высокопроизводительных вычислений больших данных. В частности, в начале 2000-х, IBM помогала Токио улучшать прогноз погоды для предвидения стихийных бедствий или вероятности повреждения линий электропередачи.

Банковский сектор. Надлежащие изучение и анализ банковских данных помогают обнаружить незаконные действия и оценить риски банковской деятельности, а именно:

– выявлять кражи данных и злоупотребления кредитными и дебетовыми картами;

– оценивать риски и принять меры по снижению рисков венчурного кредита;

– обеспечивать прозрачность ведения бизнеса;

– определять изменение кредитного поведения клиента;

– устанавливать факты отмывания денег;

– помогать налоговым службам обнаруживать схемы уклонения от налогов.

Пример технологического решения: в программах для борьбы с отмыванием денег, таких как SAS Anti-Money Laundering (SAS AML), для обнаружения подозрительных и взаимосвязанных транзакций используется аналитика больших данных. Это позволяет анализировать данные клиентов и снижать риски банковской деятельности. Востребованность таких решений доказывает, что один из крупнейших мировых банков Bank of America является пользователем продукта SAS AML более 25 лет.

Разработка потребительских продуктов. Коммерческие организации применяют системы Big Data для прогнозирования покупательского спроса. Они создают прогностические модели новых продуктов и услуг, классифицируя свойства прошлых и текущих продуктов и услуг, анализируя взаимосвязь между этими свойствами и коммерческим успехом продукта. Кроме анализа и выявления востребованных свойств продукта, для планирования, производства и запуска новых продуктов, коммерческие организации собирают данные и аналитику от фокус-групп из социальных сетей, тестовых рынков и от магазинов в которые поступили пилотные партии продукта.

Пример технологического решения – Netflix – американская развлекательная компания, поставщик фильмов и сериалов в виде потокового мультимедиа. Netflix производит сериалы и заказывает производство фильмов на основе анализа жанрового предпочтения своих зрителей, узнаваемости актеров и режиссеров.

Прогнозное обслуживание. Признаки, на основе которых можно предсказать неисправности механизмов, могут содержаться, но быть трудно выявляемыми в производственных данных и данных по эксплуатации. Это могут быть структурированные данные – например, год производства оборудования, марка и модель машины, а также эксплуатационная информация, которая охватывает миллионы записей журнала поездок, данных датчиков, сообщений об ошибках и о температуре двигателя. Анализируя эти массивы данных, можно обнаружить риски появления проблем и исправить их до того, как они возникнут. На основании результатов анализа данных эксплуатации организации могут осуществлять техническое обслуживание с меньшими затратами и максимально увеличить время бесперебойной и безопасной работы деталей и систем.

Клиентский опыт. Технологии Big Data позволяют собирать данные из социальных сетей, веб-посещений, журналов вызовов и других источников, чтобы улучшить и максимально повысить эффективность взаимодействия с клиентами. Информация о всех видах взаимодействия между потребителем продукта и продуктом или сотрудниками компании анализируется. На основании анализа производитель может изменять сам продукт или подход к взаимодействию, формировать персонализированные предложения с целью привлекать больше клиентов, уменьшать отток постоянных клиентов, оценивать качество работы и проактивно решать возникающие у клиентов проблемы.

Проблематика безопасности Больших данных. Кибератаки на системы больших данных могут привести к крупному финансовому и другим видам ущерба: упущенная прибыль, потеря деловой репутации, судебные издержки, штрафы, бойкоты, санкции. Особенно велик ущерб при успешной атаке на информационные системы компаний, которые собирают информацию о клиентах – данные их кредитных карт и другие персональные данные. Это делает вопрос безопасности Больших Данных крайне важным.

Безопасность больших данных – собирательный термин для обозначения всех мер безопасности, используемых для защиты данных, алгоритмов, программного обеспечения и процессов от уничтожения, изменения, блокировки, компрометации и другого вреда, который может быть нанесен в результате воздействия на систему. Как и другие формы кибербезопасности, безопасность больших данных связана с анализом угроз безопасности, анализом уязвимостей системы и компонент, анализом вероятных нарушителей безопасности и возможных онлайн и офлайн атак.

Спецификой безопасности Больших данных является необходимость сохранения не только стандартных свойств безопасности – целостности, конфиденциальности, доступности, но и обеспечение достоверности, полноты, подлинности данных.

Вместе с тем вопросы обеспечения даже традиционных свойств безопасности стали вызовом для владельцев систем больших данных. Например, для обеспечения доступности системы необходимо создавать не только резервные копии данных, но и создавать избыточное количество вычислительных узлов. Создание систем резервного копирования данных, обеспечение возможности аварийного восстановления или систем с высокой отказоустойчивостью существенно увеличивают затраты на владение системой. А при ее постоянном масштабирование это становится особенно дорогим.

Взрывной рост использования и развития вызвал и проблему с обеспечением организационных мер безопасности. На этапе эксперимента и создания пилотных моделей системой Больших Данных управляют специалисты ответственные за сбор, предоставление и анализ информации т. е. специалисты в решении прикладных задач. Объем данных и общая ценность системы со временем растет, однако при переходе к промышленной эксплуатации ответственных за безопасность системы зачастую забывают назначить. В следствии чего система может оказаться не только изначально спроектирована без учета необходимости принятия мер безопасности, но и в процессе создания и эксплуатации не будет приведена к необходимому уровню защищенности.

Для обычных прикладных систем эта проблема не столь актуальна – ценность системы ясна уже на этапе формирования функциональных требований и необходимость учесть меры безопасности очевидна. Для обычных систем существует обширная практика использования средств защиты информации, разработаны рекомендации и стандарты, описывающие необходимые меры безопасности на разных этапах жизненного цикла. В случае систем Больших Данных создание системы практически всегда исследовательская работа – эксперимент, ценность системы изначально не очевидна, самих систем не так много, лучшими практиками владельцы систем делятся не активно и самих систем несравнимо меньше. В связи с чем и распространена ситуация, когда в эксплуатации, широком доступе оказывается крайне уязвимая система.

Еще одна специфика безопасности Больших данных использование открытых технологических разработок. Например, поиск и обнаружение зависимостей в данных осуществляются при помощи специальных аналитических инструментов. Многие инструменты, используемые при обработке больших данных и в интеллектуальной аналитике, имеют открытый исходный код т. е. представляют собой свободно распространяемый программный код и его описание. Это дает возможность на его основе создавать новые системы посредством копирования и доработки открытого кода. Зачастую использование осуществляется без детального изучения скопированного исходного программного кода и в случае, если код был получен не из доверенного источника, его использование может привести к появлению «черного хода» в новой системе.

Очевидно также, что даже если скопированный код был без закладок, он предназначен для решения именно прикладной задачи, и, если самостоятельно не поставить цели разработать подсистему безопасности система, созданная посредством такого переиспользования кода, окажется такой же уязвимой как исходная. С точки зрения специалистов в информационной безопасности такая практика является общей, системной угрозой безопасности Больших Данных.

Факторы рисков безопасности. Риски информационной безопасности систем Больших Данных формируют большое количество факторов. Некоторые из них такие, как использование сотрудниками личных устройств, использование распределенных инфраструктур, являются общими для систем различных классов, некоторые, отсутствие единых стандартов, специфичны именно для систем больших данных.

Ценность ресурса. Системы Большие данных являются дорогостоящими и представляют значительную прикладную ценность. Ценность представляют как сами данные, аналитические заключения, полученные с их помощью, так и программно-аппаратный вычислительный ресурс, задействованный в системе. Благодаря этой ценности к системам больших данных имеет место повышенный интерес со стороны злоумышленников.

Нарушителями безопасности Big Data становятся как профессиональные преступники, получившие заказ на выведение системы из строя или кражу доступа к данным или управлению системой, так и инсайдеры, осознавшие, какую ценность может представлять полученная в результате анализа информация и готовые ее продать.

Высокая динамика развития систем. Современная ситуация такова, что в коммерческих организациях постоянно создается управленческое давление стимулирующее быстрое принятие решений при разработке ИТ-решений и построении ИТ-систем. В связи с тем, что формирование требований к безопасности и применение мер безопасности замедляет скорость развития систем и их производительность, специалисты по безопасности зачастую отстраняются от участия в формировании архитектурных и бизнес-решений поскольку рассматриваются как объективный фактор снижения скорости роста деловой активности компании. Риски, порождаемые слабой защитой данных, игнорируются, несмотря на то, что они хорошо известны и у многих компаний есть собственный опыт получения финансового ущерба в результате реализации рисков безопасности.