Текст книги "Работа с данными в любой сфере"
Автор книги: Кирилл Еременко
Жанр: Базы данных, Компьютеры
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 6 (всего у книги 18 страниц) [доступный отрывок для чтения: 6 страниц]
Морозным февральским утром, задолго до того, как проснулся любой здравомыслящий человек, мне позвонили из полиции Квинсленда. Все еще сонный и едва ворочая языком, я пробормотал: «Да, я Кирилл Еременко; да, я нахожусь у себя дома в Брисбене; да, у моего байка тот номерной знак, который мне сейчас зачитали. Так в чем проблема?» Меня спросили, пользовался ли кто-нибудь, кроме меня, моим мотоциклом и знаю ли я, где он находится. Последний вопрос вернул меня в сознание и заставил слететь с лестницы в гараж.
С облегчением я убедился, что предмет моей гордости и радости все еще там. Но оставался вопрос: если все, о чем они меня спрашивали (а они спрашивали и обо мне), находилось на своем месте, то какое дело было полиции до всех этих подробностей?
Они сказали, что заметили мотоцикл с моим номерным знаком, скрывающийся от полиции в Голд-Косте, пляжном городке недалеко от Брисбена. Учитывая, что мой мотоцикл был на месте, они предположили, что номерной знак, должно быть, подделали, – и позже обнаружилось, что так оно и было.
Представьте на мгновение, что мой байк действительно украли. Как бы я смог доказать, что это не я скрывался от сотрудников правоохранительных органов? В ту ночь я был один, и про алиби не могло быть и речи. С точки зрения полиции, это, безусловно, мог быть я, особенно принимая во внимание, насколько трудно подделать номерной знак в такой стране, как Австралия, где подобные вещи жестко контролируются.
Даже несмотря на то, что в начале разговора я не знал, был ли мой мотоцикл украден, я понял, что меня совсем, даже на секунду, не беспокоил вопрос алиби во время этого телефонного допроса, потому что я знал, что не сделал ничего плохого. Я не сомневался, что технологии послужат мне как свидетели. Большую часть времени я ношу с собой телефон, заряжаю его рядом с кроватью, и любые действия, которые я выполняю с ним, регистрируются. Это напомнило мне, как в Deloitte я работал в отделе финансовых расследований (форензик). Мы разбирали бесчисленные ситуации, когда люди утверждали, будто они делали что-то или находились в определенном месте, но их телефоны рассказывали совсем другую историю. Эти записи использовались в качестве доказательств, потому что данные, полученные благодаря мобильным устройствам, камерам видеонаблюдения и т. п., не лгут.
Этическая цена данных
Мы знаем, что данные могут причинить вред, о чем свидетельствует бум конференций и учреждений, занимающихся изучением последствий технологического развития для этики и кодексов поведения человека. Кто имеет доступ к нашим данным? Должен ли вообще существовать доступ к ним?[22]22
Дополнительные сведения об управлении данными см. в докладе, представленном Британской академией и Королевским обществом (2017), а также в серии показательных выступлений в Британской академии в рамках Сезона робототехники, ИИ и общества (British Academy, 2017, запись доступна в интернете).
[Закрыть] Как мы видели, данные открывают перед нами новые способы работы, жизни, исследований, ведения войны – и делают это с невероятной скоростью.Возьмем 3D-печать. По мере снижения стоимости разработки таких принтеров число людей, имеющих доступ к новой технологии, будет увеличиваться. Коммерческие 3D-принтеры в настоящее время производят игрушки и игры, но они также могут печатать любое количество потенциально опасных предметов – нужна только модель данных. Одного этого, безусловно, достаточно, чтобы вызвать обеспокоенность, особенно с учетом непропорционально высоких темпов технологического развития и нашей неспособности принимать законы и обеспечивать защиту от негативных последствий. Сможем ли мы когда-нибудь надеяться на то, что будем поспевать за таким быстрым темпом перемен?
Дело в том, что данные могут помочь. Они могут служить вашим алиби. Они могут выступать в качестве доказательства по уголовным делам. Многие считают, что данные могут только навредить, – но вы не слишком далеко продвинетесь в нашей дисциплине, если будете думать о себе как о злодее. Небольшое изменение в том, как вы рассматриваете науку о данных и ее функции, побудит вас искать новые способы совершенствования своей трудовой деятельности с помощью данных, вместо того чтобы чувствовать, что нужно доказывать свою профессиональную состоятельность коллегам.
Злонамеренное и неправильное использование данных
Один из самых острых вопросов в дискуссии вокруг технологий и этики связан с границами доступа машин к информации (Mulgan, 2016). По мере того как возможности роботов в обработке данных увеличиваются, машины скоро будут способны регулировать информацию способом, существенно превышающим возможности человека.
Информация всех видов становится оцифрованной. Хранение ее в цифровом, а не физическом формате превращается в норму. Исторические артефакты оцифрованы, книги и журналы доступны в интернете, а личные фотографии загружаются в социальные облака. В конце концов, информация намного сохраннее, когда находится в электронном виде: она не боится времени, ее можно копировать, а контент – выложить для общего пользования и установить связи между соответствующими элементами. Конечно, цифровые данные не полностью защищены от повреждений. Они могут пострадать или потеряться, но в итоге менее подвержены порче, чем данные, которые хранятся только в материальном виде.
Тот факт, что в интернете так много информации – как по охвату, так и по глубине, увеличивает потенциал машин, которые имеют доступ к этим данным, и расширяет разрыв между возможностями человека и компьютера.
Компьютеры не достигли пределов своих возможностей в обработке данных – но мы достигли. Машины ждут только трех вещей: доступа к данным, доступа к более быстрому оборудованию и доступа к более продвинутым алгоритмам.
Когда эти три условия будут соблюдены, польза и вред от машин, которые могут регулировать количество доступных им данных, станут только делом времени. И это уже закладывает основы для мощного оружия, будь то анализ поведения в интернете или маскировка под человека на сайтах социальных сетей в целях пропаганды. Если верить футурологу Рэймонду Курцвейлу, предсказавшему, что к 2029 г. компьютер пройдет тест Тьюринга, то предоставление машинам неограниченного доступа в интернет может сделать доступ к данным самым мощным инструментом манипуляций.
Почему бы нам просто не остановить время?
Возвращаясь домой после вечера, проведенного в центре Брисбена, я невольно оказался втянут в горячий разговор с таксистом. Он, по-видимому, негативно воспринял информацию о том, что я работаю аналитиком данных, и обвиняющим тоном заговорил о неблагоприятных для будущего последствиях моей деятельности. Опасаясь худшего, таксист жестом указал на ночное небо и спросил меня или небеса: «Почему бы просто не остановиться там, где мы находимся, прямо сейчас?»
Это просто невозможно. В нашей природе заложено стремление исследовать мир и продолжать расширять свои горизонты. Для взволнованного таксиста было естественно переживать по поводу того, как данные и алгоритмы их обработки станут использоваться в перспективе. Но тревога о том, что может произойти или не произойти, будет только сдерживать нас – пагубный сценарий, особенно с учетом того, что, пока мы паникуем, технологии продолжат развиваться.
Мы должны также понимать, что заботы одного поколения необязательно станут заботами другого. Если мы беспокоимся о том, как информация о нас собирается, хранится и используется, то, вероятно, это не будет иметь значения для молодого поколения, выросшего с этой технологией. Изменение нашего взгляда на то, что мы считаем нормой, отражается в нашем подходе к сбору и обработке данных. Рассмотрим случай хранения cookie-файлов в интернете. Многие сайты предпочитают собирать данные от пользователей. Эти данные называются файлами cookie. Информация записывается в файл, который хранится на компьютере пользователя и открывается при каждом следующем посещении сайта. Файл cookie может содержать имя пользователя, адреса посещенных сайтов и даже рекламу сторонних ресурсов – все это помогает сайту адаптироваться к потребностям посетителей.
Кейс: файлы cookie в интернете
Вам может показаться знакомым следующее заявление: «Чтобы этот сайт работал должным образом, мы иногда размещаем небольшие файлы данных, называемые cookie, на вашем устройстве. Большинство крупных сайтов поступают так же». Это уведомление Европейской комиссии (EC), которая постановила, чтобы каждый европейский сайт, использующий файлы cookie, сообщал посредством всплывающего окна или иным образом, что он записывает данные пользователя. Те, кто желает продолжать пользоваться сайтом, могут либо сразу согласиться, либо узнать больше, прежде чем принять эти условия[23]23
Возможны исключения. Руководство поставщика информации о том, как подготовить согласие пользователя на веб-сайтах, доступно на сайте Европейской комиссии: http://ec.europa.eu.
[Закрыть]. Закон был принят в то время, когда люди были обеспокоены тем, что их конфиденциальность нарушается компаниями, использующими файлы cookie для отслеживания просмотренных страниц, взаимодействий и многого другого.С тех пор тревоги, связанные с этическим аспектом использования cookie, медленно, но верно улеглись. Никого больше не пугают файлы cookie, и уж точно – не миллениалов: мы привыкли к этим файлам как к неотъемлемой части нашей онлайн-жизни. Другими словами, озабоченность по поводу файлов cookie снизилась, и поэтому требование, чтобы на сайтах компаний содержалось четкое предупреждение о сборе данных, касающихся пользователей, будет постепенно отменяться с начала 2018 г.[24]24
Пока что сайты уведомляют о том, что используют файлы cookie. Нельзя сказать, что законодательство в области сбора и хранения данных либерализуется, – наоборот, в ЕС был принят Общий регламент по защите данных (GDPR), обязывающий интернет-ресурсы в подробностях сообщать, какую информацию они собирают и хранят. – Прим. науч. ред.
[Закрыть]Сookie – это один из примеров того, как сбор данных становится частью нашего общества. То, как большинство миллениалов используют социальные сети – например, свободно выражая свое мнение, общаясь в чате, загружая свои фотографии, отмечая друзей, – должно показать, что их мир обособлен от мира беби-бумеров и они иначе (как правило) ведут себя в интернете. Я не считаю этические соображения просто неудобными препятствиями, которые аналитик данных может предпочесть игнорировать. Но я задаю вопрос читателю: действительно ли мы должны подавлять развитие технологий, исходя из наших сегодняшних опасений? Или же нам следует стремиться к установлению баланса между темпами технологического роста и темпами разработки соответствующих этических принципов[25]25
Если вам кажется. что ваш проект в области науки о данных не вполне отвечает этическим нормам, я бы предложил найти или разработать этические рамки, которых ваша компания может придерживаться. Могу особенно рекомендовать документ «Этические принципы использования данных» (Data Science Ethical Framework) правительства Великобритании (UK Cabinet Office, 2016), который доступен в интернете.
[Закрыть]?
Подготовьтесь к изучению второй части
Будем надеяться, что вы уже нашли что-то в своем личном и/или профессиональном опыте, что можно применить в вашей работе с данными. Отметьте навыки, которые вы можете использовать, напишите их в черновике резюме – работодатели ищут аналитиков данных, и вам существенно помогут свидетельства того, что ваше мышление изменилось и стало таким, какое необходимо для профессионалов в области данных.
Часть вторая
«Когда и где я могу получить их?» Сбор и анализ данных
Практически в любой сфере жизни нас часто больше всего возбуждают самые сложные задачи. И проекты, в основе которых лежит использование данных, порой ставят перед нами именно такие цели. Нужно задать новые вопросы данным, так как от аналитиков данных всегда ждут решения проблемы. Когда я начинаю новый проект, мне нравится думать, что я веду разговор с данными; я общаюсь с ними, чтобы быть уверенным в том, что смогу представить их в полном и достоверном виде клиенту или участникам проекта. По моему собственному опыту и опыту моих коллег, окончательные результаты часто открывают глаза, приводя к значительным изменениям во всех учреждениях, – от тех, что занимаются практической работой, до организационных структур. Некоторые из этих результатов могут быть непосредственно связаны с бизнес-проблемой, которую вам было предложено решить, а другие способны осветить такие аспекты деловой активности, к которым организация прежде не имела доступа.
Значит, у данных есть потенциал. Это делает их столь захватывающими. Они всегда сообщают нам что-то, будь эта информация новой или нет. Они дают шанс продолжать изучать возможности и тем самым получать различные результаты – а для этого надо задавать различные вопросы о данных, преобразовывать их с помощью различных методов и применять к ним различные алгоритмы.
Процесс анализа и обработки данных
Из-за огромного потенциала данных доступ к ним может быть затруднен, особенно если это большой массив, который содержит различные виды данных, или если компания, для которой вы работаете, просто не знает, какие данные у них собраны. Именно здесь требуется анализ данных. Он предлагает надежную и здравую технологию для любого типа проекта, связанного с данными, независимо от объема и вида доступных сведений, и призван помочь вам выстроить свой проект от его концепции до формы представления заказчику. Первый разработанный Джо Блицштайном и Ганспетером Пфистером процесс анализа данных ведет нас через каждый этап проекта, с момента, когда мы впервые размышляем, как подойти к данным, до оформления результатов ясным и эффективным образом.
Процесс состоит из пяти этапов:
1. Сформулируйте вопрос.
2. Подготовьте данные.
3. Проанализируйте данные.
4. Визуализируйте выводы.
5. Представьте выводы.
Каждый из этапов добавляет к вашему массиву данных то, что мне нравится называть «слой интереса». Хотя к некоторым из этих этапов можно возвращаться в ходе процесса, прохождение их в линейном порядке уменьшит вероятность ошибки на более позднем этапе проекта и поможет определить, на каком шаге произошел сбой.
Поскольку этот процесс является неотъемлемой частью каждого проекта в области науки о данных и поскольку каждый этап требует различных навыков, мы будем рассматривать этапы раздельно во второй и третьей частях книги. Вторая часть посвящена первым трем этапам. Эти первые три шага позволят нам: 1) сформулировать обоснованный вопрос или серию вопросов, на которые необходимо ответить с помощью данных; 2) собрать массив данных таким образом, чтобы он отвечал на поставленные вопросы, и 3) получить ответ из массива данных путем анализа или прогнозирования. На мой взгляд, эти этапы потребуют от вас наибольшего вклада. Если вы проделаете всю предварительную работу, то визуализировать и представить выводы будет просто, потому что вы уже достигнете целей вашего проекта.
Аналитик данных, частный детектив
Сегодня в нашем распоряжении невероятное количество данных. Подумайте о количестве комбинаций, которые можно получить с помощью колоды из 52 игральных карт. Просто перетасуйте колоду – крайне маловероятно, чтобы кто-то еще на протяжении человеческой истории получил такой же порядок карт. Начало работы с данными похоже на то, как если бы вам вручили колоду игральных карт, – возможностей для вариаций, с которыми можно работать, иногда больше, а иногда меньше, но их всегда множество. Как только вы установили некоторые основные правила (для карт это означает игру, для науки о данных – гипотезу и алгоритм), вы действительно можете начинать работу. Определение вопроса помогает построить и спланировать подход к данным, гарантирующий, что мы получим наиболее релевантные результаты.
В «Скандале в Богемии» Шерлок Холмс говорит доктору Ватсону: «Теоретизировать, не имея данных, опасно. Незаметно для себя человек начинает подтасовывать факты, чтобы подогнать их к своей теории, вместо того чтобы подтвердить факты теорией». Холмс предостерегает Ватсона от того, чтобы строить догадки в отсутствие подтверждающих их правильность доказательств. Но то, что Конан Дойл также подчеркнул здесь, – это необходимость сделать шаг назад, прежде чем погрузиться в проблему и сформулировать какие-либо предположения или найти решение. Имея дело с данными, мы располагаем преимуществом делать выводы из фактических доказательств, и потраченное на формулировку вопроса время поможет нам получить точный ответ, не зависящий от собственных и чужих предположений.
Это первый этап процесса анализа данных. Аналитики данных должны проявлять здесь некоторую креативность. Мы не меняем информацию в соответствии с нашими идеями, мы формулируем идеи, чтобы добиться полезного для нас понимания. В главе 4 «Сформулируйте вопрос» мы исследуем различные методы, а их применение обеспечит соответствие вопросов, которые мы в конечном итоге зададим нашим данным, целям проекта и удержит нас от пропусков и «расползания границ проекта» – неконтролируемого выхода проекта за первоначально установленные рамки условий.
Правильные ингредиенты
Мы уже давно вступили в эру компьютеров, и большинство учреждений государственного и частного секторов накопили огромное количество своих собственных данных. Однако данные собирались задолго до того, как мы узнали, что с ними можно делать, и зачастую это делали сотрудники, которые не знали, как исследовать, стандартизировать и анализировать информацию, чтобы она действительно была полезной. Такой пробел в знаниях способен вызвать в лучшем случае организованный хаос, когда массивы данных могут содержать искаженные и грязные данные, о которых мы узнаем больше в главе 5 «Подготовка данных».
Если вам надо очистить данные и сделать их удобочитаемыми, нельзя торопиться. Чтобы понять, насколько важно подготовить данные, прежде чем делать с ними что-либо, обратимся к процессу оптимального распознавания символов (OCR) при сканировании. Программное обеспечение OCR отсканирует страницу письменного или печатного текста и переведет этот текст в цифровой формат. Но OCR-сканы не всегда на 100 % корректны: их точность зависит как от возможностей программного обеспечения, так и от качества распечатываемой страницы. Рукописные документы XVII в. создадут больше трудностей и спровоцируют больше ошибок, которые затем должны быть вручную исправлены в более поздних данных. Те, кто не знает, как правильно записывать данные, или кто использует установленные в учреждении устаревшие или неоптимальные стандарты, будут генерировать массивы данных, которые также должны быть «очищены».
Игра в действии
Для анализа современных данных не требуется такой же уровень осторожности, как на предыдущих двух этапах. Если вы нашли время на формулирование правильного вопроса и подготовку своих данных для того, чтобы уяснить, что от них требуется, вы можете позволить себе поэкспериментировать с анализом. Прелесть работы с массивами данных заключается в том, что вы можете дублировать их, поэтому работа с одним типом алгоритма на массиве данных не исключает возможности применения к нему и другого алгоритма. Этим хороша цифровая информация – ее можно использовать, отбирать, реструктурировать и извлекать, но вы все равно можете вернуться к более ранней версии, как только закончите работу, и начать снова.
Итак, вы потратили время на создание лесов для вашего проекта и обеспечение того, чтобы они не рухнули под тяжестью вопросов, которые вы задаете, так что теперь пришло время исследования. В главах 6 и 7 приведены решения для типов анализов, которые вы можете выполнять, а также краткий перечень их преимуществ и ограничений, чтобы повысить вашу уверенность в выборе алгоритма, оптимального для целей конкретного проекта.
Начало работы
Хотя эта часть в основном теоретическая, она имеет практическое значение, и поэтому я настоятельно рекомендую рассмотреть возможность применения каждого из пяти этапов, описанных выше, к вашему собственному проекту параллельно с чтением книги. Тогда вы освоите некоторые из необходимых инструментов, прежде чем начать изучение этой части.
Массив данных
Если у вас еще нет собственного массива данных, с которым вы можете работать, не волнуйтесь. Существует множество общедоступных массивов данных – вы можете бесплатно использовать их в собственных экспериментах. Большим преимуществом является то, что вы сразу же погрузитесь в использование реальных массивов данных, а не тех, что были специально созданы для обучения. По моему опыту, реальные массивы данных позволят вам испытать чувство победы в результате извлечения идей из реальной информации, и добавят вес утверждению, что наука о данных имеет важное значение для будущего развития огромного количества дисциплин.
Действительно интересных и разнообразных массивов данных, доступных в интернете для загрузки и использования, очень много, однако выбор за вами. Вот только несколько для начала:
• World Bank Data. Данные Всемирного банка – ценный ресурс глобальных данных о развитии.
• European Union Open Data Portal. Портал открытых данных Европейского союза – правительственные данные государств – членов ЕС.
• Million Song Dataset. Сборник метаданных и аудиозаписей популярной музыки.
• The CIA World Factbook. Всемирный справочник ЦРУ – массивы данных из 267 стран по темам от истории до инфраструктуры.
• National Climatic Data Center. Национальный центр климатических данных – сведения об окружающей среде США.
Программное обеспечение
Новичку в науке о данных необходимо понять, что данные не имеют своего собственного «языка» и что они могут «говорить» с нами только через машину или элемент программного обеспечения. Под «языком» данных я здесь подразумеваю способ, которым машина передает данные специалисту. О скорости автомобиля, цикле цветения растений, температуре наружного воздуха и количестве жителей в городе данные просто есть. Это ряд компонентов, но отношения, которые мы устанавливаем между ними, – дело человека или компьютера. Если продолжить аналогию с языком, я бы сказал, что данные можно сравнить с отдельными буквами, которые ждут, когда кто-то расставит их в соответствующем порядке, чтобы сформировать слова и предложения. Таким образом, от нас зависит (через инструменты, которые мы применяем), чтобы наши данные работали.
Наличие доступа к программному обеспечению не является обязательным требованием для тех, кто изучает данные с помощью этой книги, поскольку она сосредоточена на практическом применении, а не на кодировании. Но если вы хотите попробовать использовать некоторые из приведенных здесь примеров, я рекомендовал бы либо R, либо Python – оба этих языка представляют собой программные средства анализа данных и доступны для бесплатной загрузки в Windows, Linux/Unix и Mac ОС X. В настоящее время это два самых распространенных в отрасли инструмента с открытым исходным кодом.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?