Текст книги "Работа с данными в любой сфере"
Автор книги: Кирилл Еременко
Жанр: Базы данных, Компьютеры
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 4 (всего у книги 18 страниц) [доступный отрывок для чтения: 6 страниц]
За удовлетворением потребности в безопасности (второй уровень в пирамиде Маслоу) следует потребность в принадлежности к социальной среде (семья, друзья, отношения). Утверждается, что мы должны быть частью сообщества людей, которые разделяют наши интересы и видение жизни. В последние годы ощутимый разрыв между технологиями и обществом стал предметом серьезной дискуссии. Интернет часто критикуют за то, что он способствует все более изолированному существованию человека, удовлетворяя все его прихоти и потребности. Будучи любителем природы, я не стану превозносить цифровую социализацию. Тем не менее относительная доступность интернета во всем мире в любое время суток, на мой взгляд, является большим преимуществом для человеческого существования и опыта.
Более того, социальные сети, такие как Facebook, Instagram и LinkedIn, успешны не из-за удобства использования платформ, а благодаря их данным. Социальная сеть, на которую неохотно подписываются, вряд ли предлагает то же самое, что и сеть с большим числом подписчиков, поскольку социальная связь в конечном итоге зависит от отношений. Если нет данных, чтобы предоставить правильную информацию, будь то человеческие связи, адресованные нам изображения или новостные сюжеты по интересующим нас темам, социальная сеть окажется для нас бесполезной.
Данные позволяют сделать наш мир намного более взаимосвязанным, и это не только помогает в личных запросах, таких как поиск старых школьных друзей; они также дают возможность ученым и практикам, занимающимся схожими проблемами, найти друг друга и завязать партнерство.
Кейс: установление контактов через LinkedIn
Мне нравится использовать LinkedIn – и я думаю, что эта социальная сеть действительно научилась применять свои данные, чтобы приносить пользу как себе, так и пользователям. Быстрый переход на вкладку «Люди, которых вы знаете» – и вот уже у вас есть бесконечный список пользователей LinkedIn, с которыми вам рекомендуют установить контакт. Одни из них могут быть вашими сослуживцами, другие – бывшими однокашниками. LinkedIn использует данные, которые вы публикуете в своем профиле, – происхождение, опыт, образование, коллеги – и сопоставляет их с профилями других участников сети.
Технология LinkedIn позволила тысячам людей восстановить связи с их прошлым. И поскольку эти контакты множатся так же, как и данные сети, создается еще больше соединений. Всякий раз, когда вы подключаетесь к другому пользователю, вы выходите на связанных с ним коллег, то есть получаете соединение не только «первой степени», но и соединения «второй степени». Тем самым вы расширяете круг намного больше, чем это представляется на первый взгляд.
Для LinkedIn, как и для любых других социальных сетей, все, что необходимо, – это запрос от пользователя. Я нашел многочисленных друзей и бывших одноклассников на этом сайте, многие из которых с тех пор перешли в ту же профессиональную область, что и я. Данные соединили нас, и это открыло возможности для нового диалога старых знакомых. Осознание того, что благодаря интернету у меня сохраняются связи с друзьями и коллегами, создает чувство общности, которые не исчезает и тогда, когда мы, например, переезжаем в другой город или меняем место работы. Я нахожу эту взаимосвязь успокаивающей.
Соединяя нас с другими людьми, которые разделяют наши интересы, с которыми мы вместе учились или жили рядом, LinkedIn также может дать нам хорошее представление о работе, которая могла бы нам подойти. Когда я хотел перейти на новую работу, то начал обновлять статус на LinkedIn. Алгоритмы обработки данных этой платформы определили мои потребности в соответствии с использованными мной ключевыми словами, и именно так на меня обратили внимание рекрутеры. Еще лучше было то, что, поскольку я написал об интересующих меня предметах, алгоритмы LinkedIn подбирали мне вакансии из тех сфер, которым соответствовали мои конкретные знания. Именно так меня нашел выпускающий редактор этой книги. Как вам такая способность социальных сетей приносить счастье?
Общественное вмешательство
Хотя присутствие в онлайне может значительно улучшить как нашу личную, так и профессиональную жизнь и способствовать удовлетворению потребности в принадлежности к социальной среде, мы также должны знать о том, чем оно чревато. Одна из самых больших проблем – в том, как защитить наши данные от кражи. Кибербезопасность стала горячей темой с момента роста онлайн-банкинга, и электронная коммерция уже является modus operandi розничной торговли для охвата новых клиентов. Раньше нам советовали чаще обновлять пароли, делать покупки только на проверенных сайтах, а если наши банковские реквизиты оказывались под угрозой – как можно скорее связаться с отделом банка по борьбе с мошенничеством. Учитывая, что мы все чаще осуществляем транзакции в интернете, нам стоит обеспокоиться тем, как компании защищают нашу информацию.
Кейс: утечки данных и программы-вымогатели
Чем больше вы пользуетесь интернетом и чем крепче связаны с другими пользователями, тем неизбежнее увеличится объем ваших «выхлопных данных». Чем больше данных вы производите, тем более ценным источником дохода вы становитесь для компаний, продающих информацию о пользователях. Данные заменили нефть в качестве самого ценного ресурса в мире (The Economist, 2017).
Но когда вещи становятся ценными, они могут стать объектом кражи или злоупотребления. И, учитывая то, насколько тесно мы связаны, забота о нашей личной информации сегодня выходит далеко за рамки номеров кредитных карт. Масса личной информации размещается в интернете, и всякий раз, когда наш персональный компьютер подключен к Сети или внешнему серверу, мы рискуем, что эту информацию украдут. Чтобы увидеть потенциальный масштаб этого риска, достаточно только вспомнить глобальную кибератаку WannaCry в мае 2017 г., когда в 150 странах компьютерный червь заразил компьютеры Microsoft с целью вымогательства. Во множестве учреждений, включая FedEx[15]15
Американская компания, предоставляющая почтовые, курьерские и другие услуги логистики по всему миру. – Прим. пер.
[Закрыть] в Соединенных Штатах и министерство иностранных дел Румынии, червь WannaCry шифровал данные пользователей – от отдельных лиц до организаций глобального масштаба, а разработчики вирусной программы требовали платы в обмен на расшифровку данных. В конечном итоге у пострадавших не было выбора, кроме как заплатить команде разработчиков за выкуп своих данных, чтобы предотвратить их уничтожение.Такова сила данных: их кража за несколько секунд может поставить на колени целую организацию.
Еще одним примером серьезного нарушения кибербезопасности стала утечка данных Equifax. Агрегатор данных более чем 800 млн потребителей и более 88 млн предприятий во всем мире, Equifax считается одной из кредитных компаний «Большой тройки». 7 сентября 2017 г. Equifax объявила, что киберпреступники похитили идентификационную информацию компании и что эта кража могла затронуть 143 млн потребителей в США. Похищенная информация содержала имена и фамилии, даты рождения, номера полисов социального страхования, адреса и т. д. (Haselton, 2017). Учитывая, что население США в то время составляло 324 млн человек, пострадал почти каждый второй житель страны.
Рост кибербезопасности
Число и масштаб кибератак на потребителей и учреждения растут. В то же время киберпреступники становятся все более осторожными, что затрудняет даже обнаружение их местоположения. Распространение биткойна, цифровой платежной системы, позволяющей осуществлять анонимные переводы, усугубляет и без того сложную проблему поиска хакеров и привлечения их к ответственности. То, что организовать утечку информации можно из любой точки мира, не позволяет правоохранительным органам оперативно находить преступников.
Сегодня неудивительно, что специалисты по кибербезопасности пользуются высоким спросом. Такие профессионалы противостоят мошенникам и хакерам в режиме реального времени, а также проводят экспертно-криминалистический анализ после того, как произошли атаки. По мере того как меняется наше взаимодействие в интернете, как развиваются и меняются цифровые системы, люди овладевают новыми способами мошенничества онлайн и в нашем распоряжении появляются новые онлайн-средства для борьбы с ними. Специалисты по кибербезопасности должны постоянно играть в кошки-мышки, если они хотят опережать угрозы.
Что бы я посоветовал тем, кто хочет заниматься кибербезопасностью? Узнайте, как работать с неструктурированными данными, то есть с нечисловой информацией. Как правило, 80 % данных компаний не структурированы (SuperDataScience, 2016). Более подробно мы рассмотрим специфику работы с неструктурированными данными в следующей главе.
Наука о данных и признаниеКак защититься от кибератак?
Если мы используем компьютеры, подключенные к интернету или внешним серверам, и особенно – социальные каналы для обмена информацией, полностью защититься от кражи данных невозможно. Однако в наших силах более внимательно относиться к хранению и управлению данными, чтобы эффективно противостоять любой опасности. Я советую вам использовать приемы, которые применяю для защиты моих данных:
1. Храните копии всех файлов, которые вы не можете позволить себе потерять, на внешнем жестком диске или выносной памяти.
2. Регулярно копируйте жесткий диск на надежный внешний жесткий диск.
3. Присвойте ярлыки своим онлайн-аккаунтам и закрывайте все аккаунты, которыми вы больше не пользуетесь.
4. Архивируйте данные, которые вам больше не нужны, и отсоедините их от интернета. Убедитесь, что эти файлы надежно хранятся, и держите архивы в прохладном, надежном месте.
5. Не храните конфиденциальную информацию на обменных серверах облачного типа.
6. Проводите регулярные проверки программного обеспечения, чтобы обнаружить возможную утечку данных до того, как она произойдет. Вирусы-вымогатели и черви могут месяцами находиться в пользовательской системе, заражая все укромные уголки баз данных и портя даже резервные копии, прежде чем наконец зашифровать данные.
Потребность в признании – четвертая по важности потребность, по мнению Маслоу. Признание может быть обеспечено с помощью данных. Многие цифровые рабочие платформы помогают клиентам, агентствам и фрилансерам найти наиболее подходящего человека для выполнения конкретной задачи, используя рекомендации и старринг – системы главных ролей. Как только проект завершен, онлайновые фриланс-платформы дают участникам возможность публично оценить друг друга на основе параметров, варьирующихся от доступности до качества работы. Каждая платформа имеет свою рейтинговую систему, но в целом эти данные в конечном итоге помогают клиентам найти оптимального исполнителя; также они стимулируют получающих хорошую оценку фрилансеров к продолжению работы на высоком уровне и вынуждают тех, кто получает отрицательный отзыв, совершенствовать свои профессиональные навыки. Некоторые могут быть против того, чтобы подвергнуться такой проверке, но последовательно публикуемые данные о качестве работы позволяют людям определить, в чем они преуспевают, а где им может понадобиться дальнейшее обучение.
Данные заслуживают признания
Компаниям следует подтолкнуть пользователей к тому, чтобы они включали в общие базы демографические данные о себе (такие, как возраст и местоположение). Также потребуется разработка более всеобъемлющей системы, выходящей за рамки простого метода главных ролей, и проведение по этим обзорам неструктурированного анализа, который должен дать более ценный и точный пример того, как чувствует себя пользователь. Затем данные могут быть визуализированы в облаках слов (популярные визуальные представления текста, о которых мы узнаем больше в следующей главе) или быть доступными через фильтры, применимые к демографическим данным пользователей.
Наука о данных и самореализацияВот где начинается самое интересное (буквально). Под «самореализацией» Маслоу понимает потребность человека реализовать свой потенциал в жизни. В отличие от низших уровней иерархии, которые в значительной степени отражают врожденные потребности всех людей, рассматриваемая здесь потребность может проявляться по-разному – ощутимо или неосязаемо – в зависимости от интересов человека. Потребность одного человека в самореализации может быть удовлетворена, когда он овладеет навыками рисования акварелью, а другого – когда он станет хорошим, способным убеждать своих слушателей оратором.
Заключительные размышленияКейс: игровой опыт
В конечном счете самореализация имеет отношение к потребности человека в радости. И мы уже видели, какова важность этого для индустрии развлечений. Индустрия видеоигр, в которой ворочаются миллиарды долларов, имеет очевидные связи с наукой о данных в их зависимости от технологий. Виртуальная реальность (VR) является одной из самых захватывающих областей, в которых данные специально используются для дальнейшего развития и улучшения игрового опыта. Там, где VR когда-то считалась причудой, теперь она является основным направлением в отрасли – и это в значительной степени благодаря продвинутым возможностям технологии обработки данных, например в том, что касается частоты кадров и деталей, необходимых для создания реалистичного виртуального мира. До прорыва в развитии, произошедшего в 1990-х, возможности системы автоматизированного проектирования (САПР) были ограничены отсутствием технологии его построения. Теперь данные можно использовать для создания полноразмерной виртуальной 3D-среды, в которой задействованы алгоритмы, отслеживающие ваше «местоположение» в этой среде в реальном времени, что позволяет экранам игроков подстраиваться под их взгляд с помощью 3D-очков с активным затвором и 3D-проекторов.
Именно так данные улучшают технику видеоигры. Но они также могут быть использованы для совершенствования опыта игрока путем учета того, как он ведет игру. И данные от пользователей могут быть собраны гораздо большим количеством способов, чем это возможно в других развлекательных отраслях, таких как кино. Оставляемые пользователями «выхлопные данные» охватывают взаимодействие игроков, игровое время, расходы на дополнительные игровые компоненты и активность в игровых чатах. Тем самым оптимизируются не только рекомендательные системы и реклама, но и механика игры, так как выявляются возможности сделать ее более приятной. В ход идут даже большие данные, которые создаются платформами распространения программного обеспечения и позволяют предсказывать периоды максимальной загрузки и выбирать время, наиболее подходящее для посещения игровых серверов.
Очевидно, что развитие науки о данных пошло на пользу огромному числу областей нашей жизни. И данные продолжают создавать проницаемый слой между физическим и цифровым ландшафтами, переопределяя то, как мы взаимодействуем с обеими средами. Это может вызвать некоторые противоречивые мысли, но, как видно из того, как легко данные могут быть соотнесены с пирамидой потребностей Маслоу, развитие, управляемое данными, в корне облегчит человеческое существование.
Естественно, многие из этих разработок и то, как мы адаптируемся к ним, зависят от аналитика данных, поэтому в следующей главе я опишу, как можно размышлять с позиций такого специалиста. Также мы убедимся, что наше первое погружение в дисциплину должным образом направляется, и узнаем, как применить опыт, который у нас уже есть.
03
Мышление, необходимое для эффективного анализа данных
Я не утверждаю, что если вы прочтете эту книгу, то станете экспертом в области науки о данных, но, безусловно, есть способы, с помощью которых вы можете начать менять свое мышление, чтобы получить преимущество перед другими, кто тоже хочет познакомиться с этой дисциплиной. Такова цель главы 3. Всем известно, что, если вы играете на музыкальном инструменте, необходимы годы практики, прежде чем вы овладеете им на профессиональном уровне. Нужно освоить гаммы и арпеджио, ваши пальцы должны скользить по клавишам, будто они смазаны маслом, и ваши соседи, вероятно, станут протестовать против шума прежде, чем вы только осмелитесь приступить к Рахманинову. Короче говоря, чтобы превратиться в хорошего музыканта, нужны значительные инвестиции вашего времени и денег.
Наука о данных обходит стороной этот трудоемкий процесс. Даже если вы изучите только самые основные «гаммы» – например, первые несколько алгоритмов, приведенных в главе 6 «Анализ данных» (часть I), – вы все равно значительно продвинетесь на пути к работе с очень сложным материалом. И как любой, кто имеет доступ к компьютеру, также сможете познакомиться с множеством бесплатных онлайн-программ и презентаций, касающихся анализа данных (а также курсов по науке о данных). Вы почти сразу сможете начать совершенствовать вашу технику, позволив программному обеспечению выполнить за вас подготовительную часть, пока вы сосредоточены на творческой составляющей своего проекта.
Хотя я всегда призываю тех, кто планирует заниматься наукой о данных, читать и узнавать как можно больше о ней, чтобы добраться до вершин своей профессии, я должен также подчеркнуть, что первое вхождение в предмет не должно быть ошеломляющим. Хотя и существуют некоторые предпосылки к тому, чтобы стать аналитиком данных (их мы рассмотрим более подробно в главе 10), я выбрал пять ключевых атрибутов для соответствующей настройки вашего мышления. Они позволят вам прямо сейчас приступить к освоению этой дисциплины.
1. Выберите правильное место, чтобы начатьАналитикам данных не нужно знать всех тонкостей каждой части программного обеспечения и каждого алгоритма, чтобы разбираться в этой области. Существует огромное множество доступных программ, а алгоритмы варьируются от простейших, способных классифицировать данные, до самых сложных, использующихся в искусственном интеллекте. Когда вы в самом начале пути, то, прежде чем погрузиться в определенную область, нужно потратить время и выяснить, в какой сфере лежат ваши интересы, будь то визуализация или машинное обучение. Воздержитесь от спонтанного ответа – он не только ограничит вас на начальном этапе изучения науки о данных, но и может лишить вдохновения, если вы совершите ошибку при выборе. Многим визуализация может показаться интереснее, чем анализ, но вы должны не жалеть времени на то, чтобы понять, что требуется в каждом случае. Хорошая новость заключается в том, что к тому моменту, когда закончите читать эту книгу, вы будете гораздо яснее представлять, какая область интересует вас больше всего.
Давайте также уточним, что мы имеем в виду, говоря об ориентации на конкретную область; существует большая разница между выбором ниши, из которой вы можете совершить прыжок в своей карьере, и специализацией в ней. Последнее – опасный шаг, делать который я бы никогда не посоветовал. В конце концов, наука о данных – динамичный предмет и требует от своих практиков быть столь же динамичными в исследовании того, как решать новые проблемы в этой области. Алгоритмы меняются, программное обеспечение – тоже, и специализация в том, что в будущем перестанет существовать, не является конструктивным способом практиковать рассматриваемую дисциплину. Как мы обсуждали в главе 1, аналитики данных должны быть хорошо осведомлены о росте и переменах. Это особенно верно, если учесть, что скорость технологического развития непосредственно влияет на их работу, как это определено законом нашего старого друга Мура.
Закон Мура 2.0
Обобщим то, что мы узнали в главе 1: закон Мура является проекцией экспоненциального роста и основан на первоначальном наблюдении, что количество транзисторов в интегральной схеме будет удваиваться каждые два года. С тех пор этот закон используется для учета темпов развития (и обратно пропорциональных затрат) в области технологии и для прогнозирования того, как скоро будущие достижения могут стать реальностью. Тот факт, что каждый год у нас появляется новый iPhone с процессором примерно на 50 % быстрее, чем у предыдущей модели, служит одним из таких примеров действия закона Мура.
В отличие от ситуации 30-летней давности, когда доступ к средствам обработки данных имели только сотрудники разведывательных служб и правительственных органов безопасности, сегодня даже детям дошкольного возраста доступен широкий спектр данных с лежащих в их заднем кармане ручных устройств. Закон Мура позволяет нам получить доступ к данным, исследовать и использовать их потенциал через этот взрыв технических достижений.
Одним из моих любимых примеров действия закона Мура на практике является проект «Геном человека», который был запущен в 1990 г.[16]16
Данные из этого проекта находятся в свободном доступе по адресу www.internationalgenome.org.
[Закрыть] Участники проекта поставили перед собой задачу определить последовательность пар оснований нуклеотидов, составляющих ДНК человека. Медленные темпы в первые годы реализации проекта вызывали обеспокоенность у тех, кто наблюдал за его развитием извне. По прошествии первых семи лет прогнозисты подвели итог – в какой части генома последовательность установлена – и предсказали, что для завершения работы потребуется еще 300 лет. Однако в этих прогнозах они не учли закон Мура. Конечно же, следующие семь лет проекта ознаменовались полным и успешным секвенированием генома – примерно на 294 года раньше запланированного срока, если принять во внимание линейную прогрессию.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?