Электронная библиотека » Андрей Коробейник » » онлайн чтение - страница 1


  • Текст добавлен: 14 февраля 2023, 14:28


Автор книги: Андрей Коробейник


Жанр: Прочая образовательная литература, Наука и Образование


Возрастные ограничения: +16

сообщить о неприемлемом содержимом

Текущая страница: 1 (всего у книги 4 страниц) [доступный отрывок для чтения: 1 страниц]

Шрифт:
- 100% +

Алена Запорожан
Большие данные. Зачем, что и как?

Перед вами электронный учебник. Он предназначен для использования в частном порядке. Если вы хотите скопировать текст, изображения и прочий контент учебника, вы должны связаться с правообладателем и получить разрешение. Если вы купили или получили этот электронный учебник и решили распространить его самостоятельно через сеть интернет или каналы коммуникации на безвозмездной или коммерческой основе – вы действуете незаконно. Любое распространение, копирование и использование, выходящее за пределы частного использования в личных (некоммерческих) целях является нарушением прав правообладателя.

Если вы купили этот электронный учебник, то использовать его можете только вы. Передавать его третьим лицам запрещено.


© Запорожан Алена Олеговна, 2022

© ООО «ЛАБОРАТОРИЯ ЗНАНИЙ», 2022

Про электронный учебник

Что вас ждет?

Фокус внимания

Советы по обучению

Что вас ждет?

Электронный учебник – сборник материалов, после изучения которого вы сможете получить краткое и емкое представление о работе с Большими Данными.

Контент электронного учебника сформирован на базе разнообразных источников. В нем, помимо полезного материала, вы найдете:

– вопросы на проверку понимания изученного;

– краткие резюме и памятки;

– советы и рекомендации по применению;

– рекомендации по дополнительному чтению;

– результаты опросов и статистику по теме;

– практические кейсы.


На изучение вам потребуется 40 минут. В конце вас ждут вопросы для проверки усвоения материала.

Фокус внимания

Этот электронный учебник создан специально для вас. Чтобы эффективно фокусироваться и хорошо запоминать материал, перед началом обучения и в начале каждой темы спросите себя:


Что я хочу сейчас изучить? Какие у меня есть вопросы?

Цель электронного учебника – не в изучении как таковом. Полученные знания важно применять на практике, в работе и в личной жизни. Верный способ это сделать – начать пользоваться изученным уже сегодня.

В конце учебника или отдельной темы попробуйте ответить на несколько вопросов:

– Какие знания и навыки я получил в пройденной теме / в учебнике?

– Как я могу использовать изученное в работе и в жизни?

– Когда я могу начать применять новые знания, и с чего я начну?


Старайтесь записывать свои мысли в начале и в конце каждой темы. По завершении чтения всего учебника просмотрите записи и начните действовать. У вас обязательно получится!

Советы по обучению

Эти приемы помогут значительно усилить эффект от обучения.

– Изучайте материал последовательно, чтобы ничего не упустить.

– Уделите обучению достаточно времени. Если сейчас у вас нет свободных 40 минут, запланируйте обучение на то время, когда они у вас будут.

– Делайте перерывы каждые 15–20 минут – так вы гораздо лучше усвоите материал.

– Постарайтесь не отвлекаться, сосредоточьтесь на изучении материала.

– Во время изучения делайте записи, зарисовки, схемы.

– Чтобы лучше ориентироваться в учебнике и запоминать материал, перед началом обучения уделите внимание «Содержанию» и изучите структуру.

– Найдите дополнительную информацию по теме и попробуйте обсудить ее с коллегами или друзьями.


Как только изучите электронный учебник, постарайтесь поставить себе такую задачу, чтобы опробовать новые навыки на практике.

Подробнее о теме

Почему тема важна, и что лежит в основе учебника?

Что вы изучите?

Почему тема важна, и что лежит в основе учебника?

Человечество производит новую информацию ежесекундно.


Безналичная оплата, программы лояльности

Статистика, опубликованная в «Российской Газете», говорит, что в 2020 году доля безналичных расчетов составила более 70 %. А приток трафика по программам лояльности, по мнению издательства «Коммерсантъ», может составлять до 50 %.


Электронная почта, запросы в поисковых системах

Согласно информации, предоставленной порталом DrMax.su, один только Google обрабатывает более 2 триллионов поисковых запросов в год.

Количество электронных писем, отправляемых ежегодно, по данным издания emailexpert.ru, давно превысило 200 миллиардов.


Видеоконтент

На начало текущего десятилетия 2 миллиарда пользователей просматривают миллиард часов видео в день на Youtube, загружая около 500 часов каждую минуту, о чем сообщает exlibris.ru.

Netflix, согласно изданию «Ведомости», получил только в первом квартале этого же года около 16 млн новых подписчиков, которые регулярно пополняют статистику просмотров.


Фитнес-браслеты и другие «умные» устройства

К началу 2020-х годов в России 3,1 млн человек стали владельцами подобных гаджетов. Согласно статистике, собранной газетой «Ведомости», этот рынок стремительно растет.


Публичные Wi-Fi сети

Анализ от 3Dnews.ru показывает, что уже к концу 2010-х годов в России насчитывалось 166 тысяч точек публичных хот-спотов.


IoT: Internet of Things, или интернет вещей

Портал Tadviser сообщает: еще в конце прошлого десятилетия объем рынка интернета вещей составил более 460 млрд долларов.


Социальные сети

Wearesocial.com в своем ежегодном отчете сообщает, что 3,8 млрд человек в мире используют соцсети, а 5,19 млрд человек имеют мобильные телефоны.


Игровая индустрия

По информации от Высшей Школы Экономики, количество геймеров уже давно превысило 2,5 млрд человек.


А мы еще не говорили о транспорте, камерах наблюдения и спутниках…

Эти и многие другие источники, по мнению экспертов IT-компании IBS, уже сформировали около 40–44 зеттабайтов информации.

Попробуйте мысленно перевести это в стандартные жесткие диски. Ведь 1 зеттабайт – это всего 1024 эксабайта, а 1 эксабайт – это просто 1 миллион терабайт.

Количество данных и возможности, которые они нам открывают, впечатляют.

Очевидно, что необходимы быстрые и эффективные решения для управления, хранения и анализа всех этих данных.

Учебник посвящен основам работы с Большими Данными. Его задача – помочь вам разобраться в теме и начать использовать Большие Данные с пользой для дела.

Если вы захотите углубиться в предмет, в учебнике вы найдете списки рекомендуемой литературы и использованных источников.

Что вы изучите?

Вам предстоит изучить:

1. Основные понятия и определения.

2. Пользу и перспективу применения Больших Данных в различных сферах деятельности.

3. Содержание и основные принципы цикла работы с Большими Данными.

4. Ключевые моменты сбора, хранения и анализа данных.

5. Способы моделирования и применения полученных данных.


Это позволит вам:

1. Оценивать необходимость и пользу применения Больших Данных в вашем конкретном случае.

2. Понимать основные принципы сбора, хранения, управления и обработки Больших Данных.

3. Иметь представление о методах и результатах анализа Больших Данных.

4. Общаться с экспертами по Большим Данным в одном информационном поле.


Желаем эффективного и полезного обучения!

Глава 1
Что такое Большие Данные и зачем с ними работать?

Вы изучите:

– Что дает использование Больших Данных?

– Основные принципы работы.


После изучения вы:

– Сможете определить необходимость работы с Большими Данными для ваших целей;

– Поймете, какую пользу принесут Большие Данные вашему делу;

– Определите основные этапы и направления работы с Большими Данными;

– Предварительно оцените имеющиеся ресурсы, потенциальные потребности и возможности для работы с Большими Данными.

Что дает использование Больших Данных?

Вначале рекомендуем сфокусировать свое внимание и ответить на следующий вопрос:


Что я хочу сейчас изучить? Какие у меня есть вопросы?

Прежде чем узнать о пользе Больших Данных (далее БД), необходимо определить, что же это такое?

Подумайте над ситуацией

Представьте себе: коллега поделился с вами переживанием. Ему приходится иметь дело с большим объемом информации, а он считает, что работа с БД – это уже другой уровень, выходящий за рамки его должности:

«Мне иногда приходится анализировать огромные списки транзакций: что, кто, где, когда, сколько. От этих однообразных таблиц уже в глазах рябит. Это же Большие Данные! Мне за это не платят!»


Какие утверждения верны в подобной ситуации?

Используйте подсказку! Среди вариантов ниже есть несколько оптимальных:

– Много данных – это Большие Данные. Коллега прав – для этого существуют особые специалисты.

– Данные должны соответствовать нескольким критериям, и один из них – разнообразие источников.

– Если основной источник этих данных – всемирная сеть, то это Большие Данные.

– Большие Данные характеризуются не только объемом информации.

Попробуйте самостоятельно ответить на вопрос, прежде чем продолжить читать главу и узнать, как можно было бы ответить.

Что такое Большие Данные?

Для начала давайте определимся, какие данные обозначают термином Большие Данные (часто используют английское выражение Big Data).

Структурированные данные, которые легко анализировать и которые созданы по определенным алгоритмам, упрощающим автоматизацию работы с ними, не являются Большими Данными, даже если это огромная таблица. Даже если невероятно огромная.

Можно ли тогда назвать Большими Данными какую-то конкретную, объемную и неструктурированную информацию? Нет. Информация – это то, что стремится сообщить нам что-то определенное. Каким бы объемным и сложным ни был учебник по квантовой механике, как бы тяжело ни было обрабатывать компьютерными алгоритмами «Войну и мир», они останутся большими источниками информации.

Даже если мы используем очень объемный и сложный источник информации сам по себе, в отрыве от других источников – это не Большие Данные

На заметку:

Когда данные и информация становятся Большими Данными?

Когда говорят о Больших Данных, часто выделяют три характеристики или три V: Volume, Velocity, Variety.

Volume. Объем. Приходящие к вам данные должны быть достаточно велики. Современный критерий – 100–140 Гб в сутки, однако со временем величина растет.

Velocity. Скорость. Информация поступает с высокой скоростью и из разных источников. Вы получаете данные без перерыва и с постоянно растущей скоростью.

Variety. Разнообразие. Вы бессистемно получаете структурированную и неструктурированную информацию в различных форматах (таблицы, тексты, видео, аудио, фото, транзакции, данные с датчиков и т. д.)

Расширим определение

«Данные – это новая нефть». Такое определение дал бывший глава Intel Брайан Кржаничв интервью Fortune. Говоря о данных, стоит иметь в виду не только их значимость, но и то, что без обработки ценность их крайне низка. Большие Данные сами по себе не предоставляют нам конкретную информацию. Мы можем использовать их для решения множества задач и задействовать различные методы и инструменты обработки и анализа.

В отечественной литературе в термин БД часто включают еще и совокупность методов и инструментов, позволяющих их анализировать и использовать.

Решение ситуации

Вспомните ситуацию из начала раздела. Вы двигались в верном направлении, если в своих размышлениях склонялись к следующему:


Большие Данные – это не только размер. Ключевое значение имеет разнообразие источников, скорость и увеличение объемов. А значит:

– Данные должны соответствовать нескольким критериям, и один из них – разнообразие источников.

– Большие Данные характеризуются не только объемом информации.

Применение Больших Данных

Большие Данные используются в различных сферах: от изменения лояльности покупателей шоколадных батончиков до распределения мощностей и объемов нефтепромышленности и от вопросов банковской безопасности до прогнозов и решений в социально-экономической сфере государства.

Маркетинг, экономика, промышленность, безопасность, здравоохранение, транспорт, экология, сфера развлечений и наука – везде могут пригодиться Большие Данные.


Например:

1. В медицине

– Для предотвращения роста заболеваний:

Анализ поисковых запросов и постов в соцсетях используется для оперативной локализации вспышек заболевания (например, Twitter и лихорадка Денге в 2009 году). Не менее актуальным стал социальный мониторинг в 2020 году.

– В целях профилактики:

Поведенческий анализ и мониторинг, например, фитнес-браслетов и электронных карт, развивает превентивную медицину, позволяя назначать лечение на ранних стадиях.

– Для эффективного лечения:

Компьютер Dr.Watson от компании IBM, собирая и анализируя массив данных о пациенте, помогает врачам в принятии решений о лечении рака.

– Big Data дополняют клинические исследования лекарств и их эффективности.

2. В образовании и науке

– Помощь в учебе:

Ряд университетов в США используют сбор данных об учебной деятельности студентов (от оценок до посещения библиотеки и лекций) для предиктивного анализа риска отчисления. Затем для студентов составляется программа, помогающая решать проблемы в обучении. Также это дает возможность предлагать дополнительные курсы и персонализировать обучение.

– Для научно обоснованных выводов и решений:

Сбор данных и анализ множества источников является незаменимым инструментом в физике, климатологии, сейсмологии и экологии. Например, HP и Conservation International собирают данные о лесах в 16 странах мира с помощью датчиков и камер, помогая разрабатывать политику охоты и лесозаготовки.

3. В банковской сфере

– Обоюдная банковская безопасность:

Приложения, помогающие вам анализировать свои расходы, также позволяют банкам построить профиль вкладчиков и заемщиков и оценить степень рисков. Безопасность транзакций и предотвращение мошенничества реализуются при помощи поведенческого анализа и использования блокчейнов (транзакции объединяются в блоки, каждый из которых содержит часть информации о предыдущем, что позволяет проверить всю цепочку).

– Безопасность и комфорт клиентов:

Если обратиться к отечественным примерам, то в России Сбербанк одним из первых стал применять биометрию для предотвращения мошенничества, а также использовать информацию для прогнозирования загруженности отделений. Тинькофф-банк, Альфа-банк и ВТБ анализируют отзывы и потребности клиентов для планирования маркетинга и улучшения сервиса.

– Естественно, для большинства банков Большие Данные – важный инструмент анализа платежеспособности клиентов.

4. В производстве

– Для уменьшения издержек:

Например, Intel анализирует производственный процесс и оптимизирует весь цикл, исключая тесты оборудования, которые оказались излишними.

– Для разработки новых продуктов:

Яркий пример – Apple, которая улучшает дизайн и потребительские свойства продуктов, собирая нужную информацию о пользователе с помощью этих же самых продуктов.

– Для ускорения процессов:

«Сургутнефтегаз» автоматизировал учет продукции, сократил время подготовки отчетов и оптимизировал бизнес-процессы, задействовав IT-решение для ведения бизнеса в реальном времени.

– Для оптимизации производства:

«Газпром нефть» и GE Oil&Gas уменьшают время аварийного простоя оборудования, анализируя множество датчиков, строя цепочки причин и создавая виртуальные модели негативных событий.

5. На транспорте

По данным Forbes, в 2017 году Москва была названа мировым лидером по внедрению интеллектуальных решений транспортной системы.

Дорожные камеры, транспортные карты, датчики температуры, осадков, освещения – все это позволяет анализировать, прогнозировать и влиять на транспортную безопасность: регулировать транспортные и пассажиропотоки, уменьшать заторы, эффективно проектировать новые линии общественного транспорта, дороги и развязки.

– Помощь бизнесу:

Системы такси используют данные для регулирования ценообразования, а крупные компании решают проблемы логистики. Для реализации задач используется множество параметров – от мониторинга дорожной ситуации до анализа возможных поломок транспорта.

6. В розничной торговле

На основе анализа историй покупок, поведенческого анализа, по данным камер видеонаблюдения сети могут регулировать схему закупок, менять раскладку товара и предлагать дополнительные товары к основной покупке.

Данные транспортной системы используются в логистике и услугах доставки.

– Улучшение логистики и обслуживания:

Издательство РБК приводит интересный пример: Amazon анализирует данные о прошлых покупках, товарах в вишлисте, товарах в корзине и даже о движениях курсора. Теперь, предполагая покупку в будущем, Amazon отправляет товар в ближайший клиенту транспортный хаб. В итоге для клиента доставка будет быстрее, а для продавца – дешевле.

7. В маркетинге

Возможно, маркетинг – это самая показательная сфера использования Больших Данных.

Сегментированная рассылка, таргетированная реклама, анализ предпочтений и персонифицированные предложения клиенту, разработка нового продукта, прогнозирование продаж – это лишь малый перечень того, что может сделать анализ Больших Данных.

– Поиск новых клиентов:

Например, Nikon использовал решения для публичного Wi-Fi, поисковых сервисов, социальных сетей и собственной программы лояльности, чтобы информировать о возможности обучаться фотоискусству в фирменной фотошколе тех, кто недавно приобрел камеру, проживает или работает в транспортной доступности от школы или интересуется обучением фотографии.

В сфере развлечений

Переход игровой и киноиндустрии в онлайн позволяет анализировать игровое поведение, предпочтения зрителей, возрастной, половой, социальный состав, территориальное расположение и множество других факторов.

С учетом полученных данных разрабатываются новые игры, корректируются сценарии, принимается решение о рекомендациях для подписчиков онлайн-кинотеатров.

– Удержать и привлечь:

Александр Богомольский, специалист по Big Data компании Wargaming, в своем интервью Forbes рассказал о том, что сбор терабайт деперсонализированных данных в день позволяет удерживать текущих игроков в World Of Tanks и вернуть старых. Кроме того, в этом деле помогают соцсети, которые дают возможность обращаться к игроку адресно.

8. Для государства

Здравоохранение, социальная политика, общественная безопасность, экономика, транспортная система – анализ Больших Данных применим практически к любой сфере государственной жизни.

Из всего этого многообразия мы приведем три примера: российский, европейский и американский.

Обращения граждан:

Система МФЦ в России позволила упростить взаимодействие госучреждений и граждан, ускорить межведомственный документооборот.

– Экономика:

Министерство труда Германии, проанализировав заявки на оформление пособия по безработице, обнаружило незаконные выплаты и сэкономило около 10 млн евро.

– Безопасность:

Полиция Лос-Анджелеса прогнозирует время и районы совершения преступлений и превентивно направляет туда дополнительные силы.

Практика
Подумайте над ситуацией

Представьте, что вы работаете в компании-вендоре.

В вашей компании решили использовать Большие Данные для увеличения продаж продукции в дилерской сети. Было собрано большое совещание из представителей различных отделов, цель которого – определить основные принципы предстоящей работы.


Что рекомендуется включить в эти принципы?

Используйте подсказку! Среди вариантов ниже есть несколько приемлемых:

– Информацию желательно получать от максимально возможного количества отделов. Потребуется информация и от продажников, и от маркетинга, и от клиентской службы, и от гарантийной мастерской.

– Следует сфокусироваться только на информации от одного отдела, например – отдела продаж или отдела маркетинга.

– Информацию нужно получать дозированно и небольшими объемами, например, раз в месяц – так ее будет легче обрабатывать.

– Информация должна собираться максимально быстро и постоянно, чем больше ее объем, тем лучше, пусть это и потребует дополнительных усилий для обработки.

Попробуйте самостоятельно ответить на вопросы, прежде чем перевернуть страницу и посмотреть рекомендуемый ответ.

Решение ситуации

Вы двигались в нужном направлении, если в своих размышлениях склонялись к следующему:

Следует различать просто получение информации и работу с Большими Данными. Большие Данные должны соответствовать принципам трех «V»: Volume, Velocity, Variety – Объем, Скорость, Разнообразие

А значит, рекомендуется уделить внимание следующим принципам:

– Информацию желательно получать от максимально возможного количества отделов. Потребуется информация и от продажников, и от маркетинга, и от клиентской службы, и от гарантийной мастерской.

– Информация должна собираться максимально быстро и постоянно, чем больше ее объем, тем лучше, пусть это и потребует дополнительных усилий для обработки.

Вопросы на самопроверку

– Можно ли назвать Большими Данными какую-то конкретную, объемную и неструктурированную информацию?

– Когда информация становится Большими Данными?

– Какое ключевое условие, кроме соблюдения принципа трех «V», должно выполняться, чтобы мы могли отнести собранные данные не просто к информации, а к категории Больших Данных?

Внимание! Это не конец книги.

Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!

Страницы книги >> 1
  • 0 Оценок: 0

Правообладателям!

Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.

Читателям!

Оплатили, но не знаете что делать дальше?


Популярные книги за неделю


Рекомендации