Текст книги "Data Science для карьериста"
Автор книги: Жаклин Нолис
Жанр: Программирование, Компьютеры
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 5 (всего у книги 38 страниц) [доступный отрывок для чтения: 12 страниц]
• Похожа на: Lyft, Twitter и Airbnb.
• Возраст компании: 8 лет.
• Количество сотрудников: 2000.
Videory – это успешный технологический стартап на поздней стадии, который управляет социальной сетью на основе видео. Пользователи могут загружать 20-секундные видеоролики и делиться ими с сообществом. Компания только получила известность, и все от нее в восторге. По масштабу она и близко не может сравниться с КИТк, но отлично преуспевает в качестве социальной сети и с каждым годом увеличивает клиентскую базу. Videory хорошо разбирается в данных, и наверняка уже несколько лет или даже с самого ее основания в ней работают несколько дата-сайентистов или аналитиков. Команда вплотную занимается анализом и составлением отчетов для поддержки бизнеса, а также созданием моделей МО, чтобы помочь людям работать параллельно со специалистами высокого уровня.
Videory все еще находится на той стадии, когда можно собрать всех дата-сайентистов в очень большом конференц-зале. Учитывая размер компании, команда по работе с данными может быть организована по централизованной модели, когда каждый сотрудник подчиняется руководителю группы, а все группы работают в одном большом подразделении организации. Команда Data Science помогает другим отделам, но в основном у нее собственные задачи. Некоторые специалисты даже работают над внутренними долгосрочными научно-исследовательскими проектами, которые не приносят мгновенной выгоды.
Как это часто бывает в компаниях такого масштаба, в Videory есть узкоспециализированные подгруппы. Также есть некоторое разделение между специалистами, занимающимися машинным обучением, статистикой или аналитикой. Компания достаточно мала, так что со временем можно будет переключаться между этими группами. Дата-сайентисты часто общаются, например, на тренингах, ежемесячных встречах и в общем чате Slack – такого не встретишь в компаниях вроде КИТк, которые слишком велики для подобного взаимодействия. При этом подгруппы в своей работе часто используют разные инструменты, а сотрудники с ученой степенью занимаются в основном теоретической работой и публикуют научные статьи.
В Videory много устаревшего кода и технологий, а еще, возможно, несколько программных средств, разработанных самостоятельно. Компания пытается не отставать от технологических разработок и планирует перейти на новую систему или улучшить существующую. Как и в большинстве организаций, дата-сайентист почти наверняка отправляет запросы в базу данных SQL. В компании также, вероятно, есть программные средства бизнес-аналитики, потому что многие из тех, кто использует информацию, не связаны с Data Science.
За время работы дата-сайентистом в Videory вы обязательно узнаете что-то новое. У всех подобных компаний есть большие данные и системы для их обработки. Одного SQL будет недостаточно; каждый месяц необходимо обрабатывать миллиарды процессов. Однако вы можете попробовать Hadoop или Spark, если нужно извлечь каки-нибудь пользовательские данные, которые не хранятся в базе SQL.
Анализ данных обычно выполняется на R или Python, а в случае трудностей вам на помощь придет множество экспертов. Машинное обучение разворачивается с помощью современных методов разработки ПО, например микросервисов. Поскольку компания известна как успешный стартап, в ней работает много талантливых людей, использующих передовые методы.
Размер Videory может быть в самый раз для дата-сайентистов; в компании работает достаточно специалистов, которые смогут наставлять и поддерживать новичка, но при этом команда все еще не очень большая, так что вы со всеми познакомитесь. Направление Data Science важно для компании, а значит, ваша работа может получить признание вице-президентов и, возможно, даже высшего руководства (например, генерального или технического директора). В работе вас будут поддерживать дата-инженеры. Конвейеры данных могут иногда работать медленнее или даже сбоить, но вы не несете ответственности за устранение этих неполадок.
В организации с более чем тысячью сотрудников вам придется иметь дело с неизбежными политическими вопросами. Вас могут заставить генерировать числа, которые хотят видеть другие (например, чтобы выслужиться перед начальством и получить бонус). Вы можете столкнуться с нереалистичными ожиданиями в плане скорости разработки чего-либо. Вы можете сделать что-то на самом деле не нужное для бизнеса просто потому, что об этом попросил ваш руководитель. Иногда вы будете чувствовать, что идете в никуда или что зря потратили время. Организация будет сильно меняться, хотя и не так, как на ранней стадии стартапа; то, что приоритетно в одном квартале, может полностью игнорироваться в следующем.
Хотя другие дата-сайентисты в Videory лучше вас будут разбираться в большинстве тем, связанных с анализом данных, вы можете быстро стать экспертом в конкретной области, например в анализе временнˆых рядов. Это может быть прекрасно, если вам нравится менторинг и обучение других, особенно если у вас есть время на то, чтобы больше узнавать о сфере с помощью чтения и различных курсов. Но если вы чувствуете, что никто не может проверить вашу работу или подтолкнуть вас к изучению нового, вам может быть непросто. Всегда будет чему поучиться, но полученные знания не обязательно будут относиться к той области, на которой вы хотите сосредоточиться.
В целом у Videory есть хорошее сочетание некоторых преимуществ других компаний. Компания достаточно крупная, чтобы обеспечить вам окружение из специалистов, способных помочь при необходимости, но в то же время она не настолько большая, чтобы в ней царил бюрократический ад или возникали ситуации, когда функции отделов дублируются. У дата-сайентистов есть много шансов научиться новому, но из-за разделения ролей они не могут попробовать все. Эта компания – отличное место для специалистов, которые ищут беспроигрышный вариант возможностей роста, число которых при этом не стремится к бесконечности.
2.5. Global Aerospace Dynamics: гигантский государственный подрядчикЭмили Барта (Emily Bartha), первый дата-сайентист в стартапе среднего размера
Я работаю в стартапе среднего размера, у которого есть продукт, ориентированный на страхование. Как первый дата-сайентист, я помогаю определить стратегию использования данных и внедрения машинного обучения в наш продукт. Я вхожу в группу по обработке данных, поэтому очень тесно сотрудничаю с дата-инженерами, а также с нашим продакт-менеджером, работающим с данными.
Рабочий день начинается с утренней встречи команды дата-сайентистов. Мы обсуждаем запланированные задачи, а также блокировщики и зависимости. Я провожу много времени, копаясь в данных: визуализирую, создаю отчеты и исследую их странности или проблемы с качеством. Я также трачу много времени на документацию. Во время программирования я использую GitHub, как и остальные члены команды инженеров; я прошу их проверять мой код (а я проверяю, что написали они). Также значительную часть дня я провожу на совещаниях или работаю над сторонними задачами совместно с членами своей команды.
После работы в крупных организациях сейчас я с удовольствием работаю в небольшой! Здесь дают много свободы для проявления инициативы. Если вы хотите воплотить свою идею, никто не встанет у вас на пути. Ищите компанию, которая уже инвестировала в инженерию данных. Когда меня наняли, в команде уже было несколько дата-инженеров, а также стратегия для инструментариев управления, сбора и хранения данных. В небольшой компании все постоянно меняется, смещаются приоритеты, поэтому важно уметь адаптироваться. Людям, которым нравится глубоко погружаться в проект и работать над ним месяцами, может не понравиться работа в стартапе, потому что там часто требуется разрабатывать приемлемые решения и сразу переходить к следующей задаче.
• Похожа на: Boeing, Raytheon и Lockheed Martin.
• Возраст компании: 50 лет.
• Количество сотрудников: 150 000.
Global Aerospace Dynamics (GAD) – огромная и богатая компания, ежегодно приносящая десятки миллиардов долларов дохода за счет различных государственных контрактов. Компания разрабатывает все: от истребителей и ракет до интеллектуальных светофоров. Филиалы компании разбросаны по стране, большинство из них не взаимодействует друг с другом. GAD существует уже несколько десятилетий, и многие нынешние сотрудники работают там практически с момента основания.
GAD очень неповоротлива, когда дело доходит до Data Science. Большинство инженерных подразделений занимается сбором данных, но им сложно понять, как их использовать в очень регламентированных процессах. Характер работы не допускает наличия багов в коде: он должен быть тщательно протестирован, поэтому идея внедрения модели машинного обучения, которая имеет ограниченную прогнозируемость в реальном времени, в лучшем случае рискованна. В целом темп работы в компании медленный; девиз мира технологий «Двигайся быстро и ломай преграды» – это полная противоположность менталитету GAD.
Учитывая количество статей об искусственном интеллекте, рост сферы машинного обучения и необходимость использования данных для трансформации бизнеса, руководители GAD готовы начать нанимать дата-сайентистов. Они появляются в группах по всей организации и выполняют такие задачи, как анализ инженерных данных для улучшения отчетности, построение моделей МО для внедрения в продукты, и работают в качестве сервисных провайдеров, решая проблемы клиентов GAD.
Хотя конкретные обязанности зависят от того, где именно и над каким проектом GAD трудится специалист, среднестатистический дата-сайентист – это один человек в команде инженеров. В лучшем случае их может быть два или три. Задача этих сотрудников – помогать инженерам с анализом, построением моделей и представлением продукта. Большинство инженеров в команде очень плохо разбираются в Data Science; они помнят регрессии, которые изучали в вузе, но не знают основ сбора данных или конструирования признаков, не разбираются в трудностях валидации модели или в том, как ее развернуть. Мало кто сможет вам помочь, если что-то пойдет не так, но, поскольку в вашей работе мало кто разбирается, вполне вероятно, что никто ничего и не заметит.
Многие из инженеров команды работают здесь более десятка лет, поэтому они хорошо знакомы со спецификой работы в организации. Кроме того, их образ мышления можно свести к фразе: «Мы всегда так делали, зачем что-либо менять?» При подобном подходе реализовать идеи, предложенные дата-сайентистами, крайне трудно. Более медленный характер оборонной индустрии означает, что люди, как правило, трудятся не так усердно, как в других местах; сотрудники работают по 40 часов в неделю, да и сокращенный день тоже не редкость. В других местах вы бы переживали из-за огромного количества задач, тогда как в GAD причина для стресса – скука и отсутствие работы.
Повышения происходят по одинаковому сценарию, потому что руководители должны соблюдать правила во избежание предвзятого отношения (чтобы на GAD не подали в суд), а еще потому, что так делали на протяжении десятилетий. Повышение во многом зависит от того, сколько лет вы проработали в компании. При чрезвычайном усердии вас могут повысить на ступень на год раньше или выдать чуть большую премию, но вероятность того, что младший дата-сайентист быстро вырастет и станет ведущим, крайне невысока. С другой стороны, компания редко увольняет своих сотрудников.
Хотя стек технологий между группами в GAD сильно различается, все они, как правило, относительно старые, локальные (а не облачные) и завалены протоколами безопасности. Поскольку данные касаются характеристик истребителей, для компании важно, чтобы они не попали в чужие руки. За каждую технологию нужно юридически отчитываться на случай, если что-то пойдет не так, поэтому открытый исходный код обычно не приветствуется. Несмотря на то что Microsoft SQL Server стоит дороже, чем, например, PostGRES SQL, GAD с радостью заплатит Microsoft дополнительные деньги, зная, что при обнаружении дыр в системе безопасности можно будет позвонить в компанию и решить проблему.
На практике данные хранятся в базах SQL-сервера, управляемых ИТ-командой, которая вообще настороженно относится к предоставлению разного рода доступа. Дата-сайентистам разрешено использование данных, но они должны запускать Python на специальных серверах с ограниченным доступом к интернету, чтобы ни одна библиотека не утекла за границу. Им также практически невозможно получить разрешение на использование ПО с открытым исходным кодом, что еще больше усложняет работу.
Если код необходимо развернуть в программном комплексе, это обычно делают традиционными способами. GAD только начинает использовать современные методы внедрения МО в производство.
Работа отдела Data Science медленная, комфортная и надежная – это преимущество GAD. Менее напряженный темп работы означает, что в конце дня вы, скорее всего, не будете чувствовать себя как выжатый лимон. В процессе у вас часто будет появляться свободное время для чтения профессиональных блогов и статей, и никто не будет ворчать по этому поводу. Мало кто будет дергать вас с вопросами, ведь почти никто в компании не разбирается в основах Data Science. А поскольку GAD – это крупная организация, для которой важна юридическая ответственность, вам придется сильно постараться, чтобы вас уволили.
Недостаток работы в GAD – небольшой по сравнению с другими компаниями шанс получить новые навыки. Скорее всего, вы будете долгие годы заниматься одним и тем же проектом, поэтому необходимые для него технологии и инструменты вскоре станут примитивными. Хуже того, ваши новые навыки будут связаны с устаревшими технологиями, которые не применяются в других учреждениях. А получить повышение в этой компании так же непросто, как и быть уволенным из нее.
GAD – отличное место, если вы найдете команду, которая занимается интересными проектами, и если вы не хотите жить на работе. Многие работают в компании десятилетиями, потому что это удобно и они этим довольны. Но если для движения вперед вам нужны трудности, GAD может не подойти.
2.6. Делаем выводыНейтан Мур (Nathan Moore), менеджер по аналитике данных в энергоснабжающей компании
Компания, в которой я работаю, обеспечивает и продает электроэнергию сотням тысяч людей и частично принадлежит государству. В самой компании около тысячи сотрудников, занимающих самые разные должности. В мои обязанности входит исследование и создание прототипов новых источников данных, а также работа со специалистами БД, очистка и документирование текущих источников данных. У нас полно устаревших систем и новых инициатив, так что нам всегда есть чем заняться.
Сейчас мой рабочий день состоит из совещаний, рассмотрений спецификаций для ETL, тестирования новой техники МО, которую я нашел в Twitter, предоставления обратной связи об отчетности, обучения использованию JIRA и Confluence и ответов на множество электронных писем. Раньше я занимался разработкой и оценкой моделей, анализировал данные, если какой-либо процесс давал сбой, и представлял отчеты по отрасли сектора в целом.
Наша компания достаточно крупная, чтобы иметь хорошую команду аналитиков для работы над множеством задач, от ежедневных отчетов до крупных проектов по сегментации клиентов. У меня было много возможностей поработать в разных сферах этого бизнеса, и я провел здесь 11 лет. Поскольку компания владеет активами стоимостью в миллиарды долларов, она не готова рисковать, а изменения здесь происходят медленно. У нас достаточно крупный ИТ-отдел, который может поддерживать повседневные процессы, но любой значительный проект, например обновление системы, означает, что ресурсы для неприоритетных оптимизаций ограничены. Все должно быть обосновано, на работы должен быть выделен бюджет, и к тому же есть определенная политика компании, которую необходимо соблюдать.
Если вы посмотрите на компании, которые размещают вакансии, вы обнаружите, что многие из них похожи на перечисленные в этой главе. По мере поиска работы и прохождения собеседований постарайтесь понять плюсы и минусы сотрудничества с каждой из них (табл. 2.1) – вам это может пригодиться.
Таблица 2.1. Краткий обзор компаний, которые нанимают дата-сайентистов
2.7. Интервью с Рэнди Ау, специалистом в области количественного UX Research в GoogleРэнди Ау (Randy Au) работает в команде Google Cloud. Уже более десяти лет он занимается Data Science в области человеческого поведения. В своем блоге https://medium.com/@randy_au он рассказывает, как правильно рассматривать вакансии в стартапах и в других различных типах компаний.
Есть ли принципиальная разница между большими и маленькими компаниями?
Да. Обычно она касается внутренней организации и структуры. Бывает так, что культура компании меняется из-за ее масштаба. В стартапе из 10 человек «все делают все», потому что каждый выполняет разные роли. Когда в компании набирается около 20 сотрудников, появляются специализации: для работы над конкретными задачами формируются команды из трех-четырех человек. Они могут лучше сконцентрироваться на определенных вещах, и знать компанию досконально уже не обязательно. Если в команде набирается 80–100 человек, она перестает расти. Многие процессы вращаются вокруг нее. Теперь не получится знать всех сотрудников компании. Неясно, кто чем занят, поэтому нужно выстраивать более сложную иерархию для взаимопонимания. Если в команде набирается примерно 150–200 человек, то приходится мириться с бюрократией, иначе разобраться с тем, что происходит в компании, попросту невозможно. А затем есть Google с его 100 000 человек. Там вообще не понятно, чем занимается бо́льшая часть сотрудников.
Чем меньше компания, тем больше вероятность взаимодействия со всеми. В компании из 40 человек генеральный директор сидел бы за моим столом, пока мы бы с ним изучали набор данных. В Google такого никогда не случится. Но готовы ли вы к ситуации, типичной для многих стартапов, когда вы создаете автомобиль для «Формулы 1» и одновременно управляете им, а все при этом спорят, нужен ли там вообще руль? Когда вы отвечаете за данные в небольшой компании, не важно, какими методами вы пользуетесь, – вы просто пытаетесь все сжать и извлечь информацию. Нет ничего страшного в отсутствии жестких рамок, когда нужны быстрые решения.
Отличаются ли компании в зависимости от отрасли?
Исторически сложилось так, что математики и дата-сайентисты изначально работали в определенных отраслях. Например, в страховой компании работают актуарии. Эти специалисты были там уже сотню лет и действительно знают свое дело. Если страховые компании привлекают дата-сайентистов, они руководствуются немного другими целями. У них уже есть служба чрезвычайно талантливых статистиков. Такие компании собираются заполнить пробел в больших данных либо же оптимизировать свой веб-сайт или что-то вроде того.
У финансистов также есть давняя традиция привлекать спецов по количественному анализу. Помню, как я однажды провалил собеседование по финансовому анализу, потому что они проверили мой код. Но мне как дата-сайентисту нужно просто убедиться, что мой код работает и выдает правильный ответ; я не слишком задумываюсь о производительности, пока все работает как нужно. А их тест буквально проверил производительность и снял за это баллы. Я подумал: «А, ну да, вы же, ребята, занимаетесь финансами. Понимаю».
Думаю, если вы поговорите со всеми, кто делает что-то в Data Science, то увидите, что подавляющее, но молчаливое большинство – это люди, которые выполняют совершенно непривлекательную, монотонную работу. Я получил невероятное количество откликов на статью об этой сфере в стартапах, где люди говорили: «Да, это моя жизнь». Об этом не упоминают в обсуждениях науки о данных. Это не крутые вещи вроде «Вот новый блестящий алгоритм, который я применил из arXiv». Не думаю, что применял что-либо из arXiv за двенадцать лет работы. Я все еще использую регрессионный анализ, потому что это действительно работает! Я думаю, что реальность выглядит именно так.
Вы будете чистить данные; не думаю, что даже в фейсбуках и гуглах есть хоть кто-то, кто не чистит данные. Делать это проще, если есть налаженная структура. Но нет, вам все равно придется этим заниматься. Такова правда жизни.
Что вы посоветуете начинающим дата-сайентистам?
Разбирайтесь в своих данных. Это действительно занимает много времени – от шести месяцев до года или даже больше, если система сложная, но качество данных – это ваша основа основ. Если вы не понимаете данные, с которыми работаете, то однажды сделаете совершенно неправильные выводы. Кто-то скажет: «О, у меня есть подборка уникальных файлов cookie пользователей, посетивших веб-сайт, и их количество равно количеству уникальных посетителей». Но это не так. А как же те, кто использует несколько устройств или браузеров?
Чтобы действительно разбираться в своих данных, нужно подружиться с профессионалами предметной области. Когда я составлял финансовые отчеты, то общался с финансистами в надежде разобраться, что и как называется и что и в каком порядке вычитается по правилам бухгалтерского учета. У вас может быть 50 миллионов посещений с одного IP-адреса, но в сеть с данного компьютера выходят разные пользователи. Вы этого не поймете, а кто-то другой, возможно, поймет.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?