Текст книги "Data Science для карьериста"
Автор книги: Жаклин Нолис
Жанр: Программирование, Компьютеры
Возрастные ограничения: +16
сообщить о неприемлемом содержимом
Текущая страница: 7 (всего у книги 38 страниц) [доступный отрывок для чтения: 12 страниц]
По сравнению с самообразованием у буткемпов есть один серьезный недостаток – цена, которая обычно составляет от $15 000 до $20 000. Хотя есть вариант получить стипендию, которая покроет часть стоимости обучения, нужно еще помнить об издержках, связанных с невозможностью работать полный день (а порой и неполный) во время программы. Кроме того, после буткемпа, скорее всего, придется еще несколько месяцев искать работу. Во время учебы делать это не получится из-за нехватки времени и навыков в Data Science, и, даже если вас примут на должность, весь процесс может занять несколько месяцев от момента отклика до первого дня работы. Короче говоря, буткемп может оставить вас безработным на шесть, а то и девять месяцев. Если у вас есть возможность самостоятельно изучать Data Science в свободное время или учиться на работе, то можно продолжать зарабатывать и не платить за обучение и таким образом сэкономить десятки тысяч долларов.
Количество вариантов буткемпов зависит от того, где вы живете. Если вы хотите посещать их очно, то, вероятнее всего, даже в большом городе выбор доступных программ будет небольшим. А из провинции и вовсе придется на время перебираться в город, что увеличит стоимость программы и серьезно изменит вашу жизнь.
С другой стороны, есть онлайн-версии буткемпов по Data Science. Однако учтите: как и в случае с магистратурой, один из плюсов очных буткемпов в том, что люди вокруг будут мотивировать вас и помогать сосредоточиться на обучении. Если вы выберете онлайн-формат, то лишитесь этого преимущества и ваш буткемп за $20 000 может сравняться по эффективности с дешевыми или вовсе бесплатными открытыми онлайн-курсами.
При выборе буткемпа в вашем регионе не забудьте посетить аудитории, пообщаться с несколькими преподавателями и оценить, где вам комфортнее. Но будьте осторожны: везде хватает людей, которые стремятся выкачать деньги из тех, кто пытается стать дата-сайентистом. Если вы не будете осмотрительны, то можете попасть на программу, которая оставит вас без работы, зато с долгом в десятки тысяч долларов. При выборе буткемпа крайне важно пообщаться с теми, кто его окончил. Есть ли успешные выпускники этой программы на LinkedIn? Если да, пообщайтесь с ними и спросите, как они оценивают полученный опыт. Если вы не найдете таких людей на LinkedIn, это должно стать тревожным звоночком.
Буткемпы могут отлично подойти тем, кто хочет сменить профессию и уже немного разбирается в основах Data Science. Они также могут быть полезны для тех, кто только оканчивает университет и хочет пополнить портфолио DS-проектами, прежде чем искать работу. Тем не менее буткемпы не рассчитаны на то, чтобы прокачать вас с нуля до 60-го уровня; у большинства из них есть высокие требования к зачислению, и нужно иметь опыт работы с основами статистики и программирования, чтобы поступить, а затем получить максимум от программы.
3.3. Работа с Data Science в вашей компанииВы можете оказаться в сфере, связанной с Data Science. Необычный, но часто очень эффективный способ освоить это направление – начать все больше работать с данными в рамках текущей должности. Возможно, вы бизнесмен, который заставляет DS-отчеты звучать по-деловому. Тогда попробуйте добавлять в них собственные графики. Или, может быть, вы как работник финансовой сферы составляете электронные таблицы – их можно перенести на R или Python.
Рассмотрим гипотетическую Эмбер, человека, который несколько лет проработал в отделе маркетинговых исследований, проводил опросы клиентов и использовал графический интерфейс пользователя (GUI) для сбора результатов опроса. У Эмбер есть опыт работы в социологии и немного навыков программирования, полученных за время учебы. Она часто работает с отделом анализа данных, которому передает результаты опросов и объясняет их суть для использования в моделях. Со временем Эмбер начинает выполнять небольшую работу для DS-команды: извлекает функции в R, занимается визуализацией. Вскоре команда все больше и больше полагается на Эмбер. За это время ее навыки программирования и обработки данных действительно улучшаются. Через год она становится членом команды и работает на полную ставку, оставив сферу маркетинга в прошлом.
Попытка перейти к Data Science на текущем месте работы – отличный вариант, ведь так вы практически ничем не рискуете, зато очень мотивированы. Не нужно бросать работу ради дорогостоящего буткемпа или высшего образования; вы просто занимаетесь данными там, где это возможно. При этом такой подход мотивирует, потому что результаты вашей работы нужны остальным сотрудникам. Со временем вы сможете все больше заниматься Data Science, пока наконец это не станет вашей основной работой. Это совсем не похоже на вариант, когда вы сначала учитесь, а затем внезапно меняете сферу деятельности.
У Эмбер – бывшего маркетолога, а ныне дата-сайентиста, было кое-что еще:
• У нее были налаженные взаимоотношения с DS-отделом, который курировал ее работу.
• Она освоила основы программирования и визуализации данных.
• Она была достаточно мотивированной, чтобы изучать методы Data Science на работе.
• Отдел анализа данных смог поручить Эмбер небольшие проекты, которые со временем становились масштабнее, что в итоге позволило ей стать дата-сайентистом.
Если вы хотите освоить Data Science на работе, поищите места, где делают небольшие DS-проекты, и людей, готовых с ними помочь. Такие простые задачи, как создание отчета или автоматизация существующего, могут многому научить.
Одно важное замечание для выбравших этот путь: никогда не напрягайте других. Это может быть очевидным, например если вы неоднократно просите очистить для вас наборы данных, или менее явным, скажем если вы постоянно просите кого-то проверить вашу работу. Вы также можете неумышленно нагрузить команду, добавив новые инструменты. Если вы из финансового отдела и все, кроме вас (теперь вы используете R), работают с Microsoft Excel, то вы все усложнили. Даже обращение к кому-то с просьбой дать вам задание может быть людям в тягость, потому что тогда придется думать, чем вас занять. Так что старайтесь не создавать проблемы другим людям.
Две точки зрения на диалог
Что вы говорите: «Я рад помочь чем могу – просто дайте мне знать как! Спасибо!»
Что, по вашему мнению, слышат: «Я человек, который хочет работать на вас. Вы можете передать мне этот увлекательный, но простой проект, который так долго ждал своего часа, и я сделаю его за вас!»
Что слышат на самом деле: «Привет! Я хочу быть полезным, но понятия не имею, что вам нужно. Я также не знаю, какие из моих навыков будут полезны, так что удачи вам в поиске задачи для меня. Кроме того, если вы каким-то образом найдете задачу, которая мне идеально подходит, вам еще придется пересмотреть ее несколько раз, прежде чем я смогу с ней работать. Все это отнимет у вас и без того недостающее время. Спасибо!»
Чтобы этот путь был эффективным, нужно использовать несколько ключевых стратегий:
• Проявляйте инициативу. Чем больше работы вы сможете выполнить до того, как вас об этом попросят, тем более независимым станете и тем меньше будете обременять команду. У группы дата-сайентистов может быть скучная задача, на которую уйдет много времени, например маркировка данных или создание простого отчета. Можно предложить им свою помощь. Но будьте осторожны с самостоятельностью: может так получиться, что вместо пользы она принесет команде одну только необходимость все переделывать. Однако если вы можете приступить к задаче, в которую остальные позже внесут свой вклад, возможно, вы сэкономите для команды много времени.
• Осваивайте навыки по одному, не хватайтесь за все сразу. Выделите один навык, который вы хотите изучить в процессе работы, и принимайтесь за дело. Например, можно научиться составлять отчеты с помощью R, потому что группа дата-сайентистов постоянно этим занимается. Взявшись за небольшой проект для помощи команде, можно добавить новый навык в свой арсенал. После этого можно приступать к изучению следующего.
• Четко сформулируйте свои намерения. Довольно быстро все поймут, что вы берете дополнительную работу для перехода в Data Science. Если вы проявите инициативу и дадите DS-команде понять, что хотите научиться большему, она может придумать, как вам помочь. Кроме того, члены команды будут учитывать вашу неопытность, потому что они когда-то тоже были новичками.
• Не будьте чересчур напористым. Помочь человеку стать дата-сайентистом – это огромный труд, а команды уже и так перегружены работой. Если вдруг окажется, что ни у кого нет времени или возможности помочь вам, не принимайте это на свой счет. Иногда напоминать о себе – нормально, но, если вы будете слишком настойчивы, команда быстро почувствует себя некомфортно. Участники будут рассматривать вас не как потенциальный ресурс, а как источник неудобства.
Когда возможностей нет
Вы можете оказаться в ситуации, когда на вашей нынешней должности нет возможности заниматься данными. Возможно, какие-то рабочие ограничения не позволяют вам использовать R или Python или реализовать методы анализа данных. В таком случае вам, возможно, придется принять решительные меры. Уйти с работы, чтобы пойти в буткемп или учиться в институте, – рискованный, но эффективный шаг, который поможет перейти на новый уровень. В свободное время также можно учиться самостоятельно, но у этого метода есть масса недостатков (см. раздел 3.4). Другой вариант – попытаться найти другую работу в своей области, которая открывала бы перспективы узнать больше. Но никто не гарантирует, что на новом месте вы получите обещанное.
Среди этих вариантов нет легких путей, но, к сожалению, такова жизнь. Чтобы получить работу в Data Science, придется потрудиться, но оно того стоит.
Обучение без отрыва от производства может быть эффективным способом стать дата-сайентистом при условии, что на вашей работе можно применить навыки в области анализа данных и есть люди, которые могут вас наставлять. При соблюдении этих условий такой путь – отличный вариант, но так бывает далеко не всегда. Если вы считаете, что он вам подходит, мы настоятельно рекомендуем выбрать именно его. Работа не всегда позволяет учиться без отрыва от производства, так что воспользуйтесь возможностью, если она есть.
3.4. СамообучениеData Science посвящено огромное количество книг (например, эта) и множество онлайн-курсов. Они обещают научить вас основам DS, а также углубленным техническим навыкам (и по разумной цене) на практике. Эти курсы и книги, а также все блоги по Data Science, учебные пособия и ответы на Stack Overflow могут дать неплохую базу.
Такие материалы отлично подходят для приобретения отдельных навыков. Например, если вы хотите разобраться в глубоком обучении, книга может стать отличным помощником. А для изучения основ R и Python можно для начала пройти онлайн-курс.
Самостоятельно изучать Data Science по книгам и онлайн-курсам – это все равно что учиться играть на музыкальном инструменте по видео на YouTube или изучать что-либо еще без преподавателя: ценность такого подхода в основном зависит от вашей настойчивости. На освоение навыков с нуля могут уйти сотни, а то и тысячи часов. И правда, как можно сосредоточиться на Data Science, когда на соседней вкладке открыты лучшие подборки TikTok? Также трудно понять, с чего начать. Если вы хотите изучить все темы, то кто подскажет, какую книгу прочесть первой (может быть, эту)?
Самообучение означает, что у вас нет преподавателя или примера, на который стоит равняться. Без учителя, которому можно задавать вопросы, как в буткемпе или университете, вы не узнаете, все ли делаете правильно и что нужно делать дальше. Время будет потрачено впустую, если у вас нет четкого направления или вы вообще выбрали неправильный путь. Лучший способ восполнить отсутствие преподавателя – найти сообщество людей, в котором можно задавать вопросы. Отличный пример – программа TidyTuesday (https://github.com/rfordatascience/tidytuesday), инициированная Томасом Моком; каждый вторник начинающие и практикующие дата-сайентисты используют R для решения DS-задач.
Если вы все же решите учиться самостоятельно, важен грамотный подход. Книги и видео – это здорово, но вы узнаете гораздо больше, если будете практиковаться и делать выводы на основании проделанной работы. Другими словами, чтение о велосипедах может быть познавательным, но вы никогда не научитесь кататься, не сев на велосипед. Обязательно найдите проект, которым хотите заниматься, например найти в наборе данных интересные результаты, создать модель машинного обучения и API или использовать нейронную сеть для генерации текста. В главе 4 мы рассмотрим такие проекты подробнее. При других способах изучения Data Science проекты могут пригодиться для создания портфолио, но, когда вы учитесь самостоятельно, проекты играют именно образовательную роль.
Учиться самостоятельно сложно, но можно. Вы должны уметь определять учебный план, сохранять достаточную мотивацию и делать все это без наставника или преподавателя, который мог бы вам помочь. Вам также будет труднее продемонстрировать свою квалификацию в резюме, чем в других случаях. Из всех предложенных нами способов стать дата-сайентистом этому мы отдаем наименьшее предпочтение, поскольку при самообучении многое может пойти не так. Кроме того, многим попросту не удается сохранять сосредоточенность. Если вам нужно освоить какой-то один навык или технологию, такой способ может подойти, но для того, чтобы изучить все, что нужно знать специалисту, лучше выбрать другой путь.
Рис. 3.1. Процесс принятия решения об изучении Data Science
3.5. Как сделать выборКак выбрать один из этих четырех совершенно разных подходов? Все принимают решения по-разному, но мы предлагаем ответить на три вопроса (рис. 3.1):
1. Есть ли у вас знания в области Data Science? В частности, знаете ли вы хоть один язык программирования, не учитывая легкие курсовые работы? Умеете запрашивать данные из базы SQL? Понимаете, что такое линейная регрессия?
а) Если ваш ответ: «Нет, мне нужно многому научиться», вам, вероятно, лучше всего подойдет магистратура. Во время обучения на этой программе вы будете изучать различные темы в течение достаточно длительного времени и сможете хорошо их освоить.
б) Если ваш ответ: «Да, я это знаю», переходите к вопросу 2.
2. Согласны ли вы потратить год или даже больше на приобретение навыков, вместо того чтобы просидеть без работы всего 6–9 месяцев и стать дата-сайентистом быстрее? Сложно быстро освоить навыки с нуля, если вы сосредоточены исключительно на обучении; с полноценной работой сделать это будет еще сложнее. Вы готовы потратить больше времени, чтобы сохранить занятость на полный рабочий день?
а) Если ваш ответ: «Нет, мне нужно действовать быстро», запишитесь на курсы. Через три месяца вы освоите тонну информации и будете готовы приступить к поиску новой работы, что может дополнительно занять от трех месяцев до полугода.
б) Если ваш ответ: «Да, не хочу торопиться», переходите к вопросу 3.
3. Можете ли вы изучать Data Science на своей нынешней работе? Можете ли вы делать всякие вещи с данными на текущей должности, например проводить анализ, хранить что-то в SQL или попробовать R или Python? Есть ли команда, которая могла бы наставлять вас или давать небольшие задания?
а) Если ваш ответ: «Да, я могу здесь учиться», тогда действуйте и используйте свою работу как трамплин в Data Science.
б) Если вы ответили: «Нет, у меня нет такой возможности», пора переходить к книгам и онлайн-курсам.
Эти вопросы должны стать вашей отправной точкой, однако вам не нужно принимать единственное окончательное решение. Вы можете начать с книг, а затем пойти в буткемп, если захотите двигаться быстрее. Также можно пойти в вечернюю магистратуру и заниматься Data Science на текущей работе. Однозначно правильного ответа нет; важно найти решение, которое подходит именно вам. Если что-то идет не так, меняйте методы до тех пор, пока не подберете работающий.
Выбрав маршрут, следуйте ему! Поступите наконец в магистратуру, запишитесь в буткемп или купите нужные книги и начните читать. В целях этой книги будем считать, что уже прошло какое-то время и вы успешно освоили навыки, необходимые дата-сайентисту. В следующих нескольких главах они пригодятся для портфолио, благодаря которому вы сможете получить первую работу в Data Science.
3.6. Интервью с Джулией Силдж, дата-сайентистом и инженером-программистом RStudioДжулия Силдж (Julia Silge) известна благодаря своему блогу о Data Science, а также разработанному ею и Дэвидом Робинсоном (David Robinson) пакетом tidytext, который является краеугольным камнем естественной обработки языка в R и был скачан более 700 000 раз. Они также совместно написали книгу Text Mining with R: A Tidy Approach (O’Reilly). Джулия несколько лет работала дата-сайентистом в Stack Overflow, а сейчас разрабатывает инструменты машинного обучения с открытым исходным кодом в RStudio.
Прежде чем стать дата-сайентистом, вы работали в академической сфере; как полученные навыки помогли вам в нынешней профессии?
Занимаясь исследованиями, я иногда собирала реальные данные. Этот опыт научил меня думать о процессах их создания. В том случае это был результат физического процесса, к которому я могла прикоснуться. Я на самом деле могла видеть, почему данные были неупорядоченными или почему мы не получили определенный результат в конкретной ситуации. Я вижу прямую взаимосвязь с работой, которой я семь лет занималась в технологической компании, чья деятельность связана с веб-данными. Там был какой-то процесс, который их генерировал, а я должна была тщательно следить за записью и правильностью его выполнения. Этот опыт работы с реальными данными определяет мой подход к разработке инструментов машинного обучения.
Еще до того, как стать дата-сайентистом, я научилась общаться и обучать. Я преподавала в колледже несколько лет, а еще работала на местах, предполагающих общение с клиентами. Таким образом, я развивала свое представление об определенной сфере и пыталась передать эти знания другому человеку. Я твердо верю, что это часть обязанностей большинства специалистов в Data Science. Если просто обучить какую-то модель или провести статистический анализ, это будет не настолько ценно, как если взять ту же модель или анализ и объяснить, что все это означает, как оно работает или как это можно реализовать в более широком контексте.
Где вы приобретали необходимые навыки для работы в Data Science?
Конечно, я думаю, что образовательные программы, буткемпы и онлайн-материалы – отличные варианты для разных людей в разных ситуациях. Учитывая, что у меня уже была кандидатская степень, мне не хотелось возвращаться в университет и тратить еще больше денег. Признаюсь, я подала заявку в пару буткемпов, а они меня прокатили! Когда я решила сменить карьеру, то понимала, что справлюсь с этой работой, но мне предстояло убедить в этом других. Мне также нужно было освежить знания о машинном обучении и некоторых методах, потому что, когда я училась в аспирантуре, современное МО еще не дошло до астрофизики.
Я выбрала путь онлайн-курсов и стала заниматься самообразованием. Иногда я в шутку говорю, что прошла все существующие MOOC (массовые открытые дистанционные курсы): их было действительно много. Я взяла перерыв на полгода в месте, где работала на полставки, и бросила все силы на курсы. Я давно не училась и была в восторге от материала. Какое-то время я не занималась анализом данных, поэтому вернуться к нему было действительно здорово!
Выбирая карьеру в Data Science, вы знали, чем конкретно хотели бы заниматься?
Рассматривая разные варианты будущего, я слышала о том, как специалисты рассуждали о различиях между анализом и построением в Data Science, и видела себя стопроцентным аналитиком. Я хотела быть не столько инженером, сколько ученым – человеком, который стремится понимать суть и отвечать на вопросы, а не заниматься построением. Так началась моя карьера. Бˆольшую часть времени я была единственным дата-сайентистом в Stack Overflow и работала в команде с очень талантливыми дата-инженерами, настоящими мастерами своего дела. Как единственный специалист по данным я занималась анализом и построением моделей. Теперь, когда я работаю над инструментами с открытым исходным кодом, моя должность называется «инженер ПО» и я трачу больше сил на построение, чем на анализ.
Что бы вы посоветовали тем, кто хочет получить навыки, необходимые дата-сайентисту?
Я бы хотела особенно подчеркнуть вот что: вы должны продемонстрировать, что справитесь с этой работой. Это можно сделать по-разному в зависимости от ситуации. Data Science все еще остается относительно молодой сферой, и многие до конца не уверены в том, что значит быть специалистом по данным и кто может им стать. Границы обязанностей по-прежнему достаточно размыты, а поскольку эта должность хорошо оплачивается, компании сильно рискуют при найме таких сотрудников и, естественно, желают избежать ошибок. Организация должна быть уверена, что кандидат справится с работой. Я видела, как люди ради этого делали вклад в открытый исходный код, рассказывали о своих проектах на местных встречах и создавали портфолио в блоге или на GitHub. Я же прошла курсы MOOC, изучила то, что считала важным, и завела блог. Я надеялась, что все эти проекты и посты в блогах можно будет обсудить на собеседовании.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?