Когда я работал консультантом по технологиям, я помню, как впервые узнал о мире науки о данных. Я был чрезвычайно воодушевлен, чтобы узнать больше об этой теме. Вскоре я решил, что хочу сам стать практиком Data Science. Я и не подозревал, что наука о данных — непростая область для освоения. Получить собственные знания сложно, а получить возможность получить опыт работы в этой области еще сложнее. Чтобы стать Data Scientist, вам нужно заниматься Data Science, а для работы с Data Science вам нужно быть признанным Data Scientist. Требуется много усилий, чтобы перейти от «хотелки» к «признанному» Data Scientist. Я использую здесь слово «признанный», потому что признание со стороны других является важнейшей предпосылкой. С признанием приходит соответствующая работа, с соответствующей работой приходит соответствующий опыт, а с соответствующим опытом вы можете стать хорошим специалистом по данным.

Хотя мой путь далек от завершения, пока я добился быстрого прогресса. Благодаря своему успеху, я хочу поделиться несколькими мыслями, которые, надеюсь, помогут вам добиться успеха.

Чтобы получить знания, начните с онлайн-обучения, это гораздо эффективнее, чем вы думаете (если вы делаете это хорошо)

В начале моей профессиональной карьеры младшие специалисты по данным в моем проекте намного опережали меня по своим знаниям в области математики, информатики и статистики. Тем не менее, я нашел эффективный способ сократить разрыв, который я использую до сих пор. Я изучал науку о данных онлайн через codecadamy, Kaggle, Datacamp, MOOC на Coursera и в личных проектах. Несмотря на то, что популярность онлайн-обучения растет, я чувствую, что его эффективность все еще недооценивается большинством. Поэтому найдите время, чтобы рассмотреть преимущества:

  1. Из всех возможных предметов в мире вы можете выбрать конкретно то, что хотите изучать, не привязываясь к более крупной программе. Вы можете сосредоточить свои усилия на том, что важно для вас. Если вас интересует более широкая тема, вы можете выбрать многонедельный курс. Если это отдельная техника, вы можете прочитать блог.
  2. Вы можете ускоритьпрохождение курса и завершить его досрочно, потому что вы не привязаны к какой-либо учебной программе.
  3. Вы можете изучить каждую отдельную тему, которую хотите изучить, в институте, который предлагает самое высокое качество согласно отзывам других студентов. Это дает большое преимущество по сравнению с университетским образованием, где вы обычно связаны многолетним пакетом услуг.
  4. У вас есть огромный пул коллег-аналитиков данных, которые могут помочь вам учиться благодаря большим сообществам Kaggle и StackOverflow.

Не верите мне? Взгляните на ответы из опроса Kaggle 2017 года. В этом опросе один вопрос касался полезности инструментов обучения. Угадайте, онлайн-курсы 419 500 раз были названы «очень полезными» инструментами. Это примерно в два раза чаще, чем традиционные инструменты, такие как колледж/университет (185 300) и учебник (231 600). Интересно, что в топ-10, перечисленных на рисунке ниже, доминируют онлайн-платформы, такие как Kaggle, Stackoverflow (SO) и Youtube.

Обучающие платформы для науки о данных и их полезность:

Есть только одна вещь, которая стоит на вашем пути к знанию, и эта вещь — вы сами. Вы должны быть в состоянии определить для себя, что вам нужно изучить, и вы должны быть достаточно мотивированы, чтобы сделать это. Поскольку вы можете многому научиться за короткое время, ваше отношение к обучению важнее, чем ваше образование или знания, которыми вы уже обладаете. Так что составьте себе список курсов по машинному обучению, статистике, математике, инженерии данных и программированию и начинайте учиться! После того, как вы рассмотрели тему, убедитесь, что вы применяете свои знания в личных проектах, работе или в конкурсе Kaggle, потому что это поможет вам сохранить то, что вы узнали, в долгосрочной перспективе.

2. Чтобы получить соответствующий опыт, вы должны следовать своим собственным приоритетам, даже если это не одобряется другими.

Если вам удастся развить знания в области науки о данных, хорошо для вас, вы решили свою самую легкую проблему. Следующий шаг – начать использовать его в своей работе. В конце концов, именно здесь вы проводите большую часть своего продуктивного времени. Тем не менее, в большинстве компаний вам повезет, если вы вообще сможете инвестировать какое-то время в науку о данных. Взгляните на опрос Kaggle, в котором профессионалы делятся своими проблемами в области Data Science на работе, и вы увидите, что большинство компаний не очень благоприятная среда для Data Science.

Проблемы в работе с наукой о данных и их частота:

Вы когда-нибудь слышали о термине "зрелость аналитики"? Это термин, который описывает уровень интеграции данных и аналитики в компании. Чаще всего этот уровень подразделяется на пять стадий, ранжированных от «аналитического нарушения» (самый низкий) до «аналитического» (самый высокий). Скорее всего, ваша компания находится где-то на промежуточной стадии. Это означает, что ваша компания использует аналитическую отчетность, и вы регулярно создаете информационные панели для своих менеджеров. Поначалу создание информационных панелей — полезный опыт, но вскоре вы достигнете предела, когда достаточно изучите основы бизнес-аналитики и захотите перейти к более сложным темам, таким как машинное обучение. Но что делать, если вы работаете в компании, которая не предоставляет возможности Data Science? Начните с оценки вашей текущей ситуации. В вашей текущей работе, какой процент вашего времени вы посвящаете следующим видам деятельности?

Тип 1.Машинное обучение/прогностическая аналитика.

Тип 2. Написание кода на релевантных языках (с открытым исходным кодом).

Тип 3.Анализ данных, визуализация, проектирование, ETL.

Тип 4.Все остальные виды деятельности, не связанные с анализом.

Вероятно, вы проводите больше всего времени в типах 3 и 4. Цель состоит в том, чтобы максимизировать время, затрачиваемое на занятие 1. Не слишком беспокойтесь о других занятиях. Если вы можете тратить время на деятельность типа 1, вы автоматически потратите время на деятельность типа 2 и 3, поскольку они автоматически вытекают из работы типа 1. На самом деле, в большинстве компаний ваше распределение времени будет тяготеть к нижней части списка. Время для действий 1 и 2 встречается редко, потому что они требуют от вашей компании высокого уровня аналитической зрелости. Для этого требуется редкий коктейль менеджеров, знающих аналитику, доступ к качественным данным и четкое экономическое обоснование.

Единственный способ создать более релевантный опыт — сопротивляться гравитации. Используйте список из 4 пунктов в качестве отправной точки для всех профессиональных решений, которые вы принимаете. Чем больше времени в верхних регионах списка, тем лучше. Это означает делать трудный выбор. Предположим, к вам приходит ваш менеджер и просит вас сравнить цены на рынке, чтобы определить цену продажи онлайн-продукта X. С другой стороны, у вас есть идея построить контролируемую модель, которая динамически оценивает один и тот же продукт X. варианты имеют ту же цель. Однако ваш вариант более инновационный и поэтому воспринимается менеджером как более рискованный. Путь наименьшего сопротивления, очевидно, состоит в том, чтобы следовать подходу вашего менеджера. Это самый легкий и простой подход, и его успешное применение повысит ваши шансы на продвижение по службе. Тем не менее, это не имеет отношения к Data Science. Вознаграждение за этот тип работы укрепит вас как бизнес-аналитика за счет вашего путешествия в науку о данных. Противоположной альтернативой является использование в своей работе как можно большего количества науки о данных (в допустимых пределах, конечно). Это немного навредит вам в краткосрочной перспективе, потому что вы можете показаться упрямым или непрактичным. Это может быть даже менее эффективно, чем простой классический подход. Но в долгосрочной перспективе это расширит ваш опыт работы с наукой о данных и поможет привлечь больше специалистов по науке о данных. Если вы будете заниматься наукой о данных, даже если это будет совсем немного, некоторые люди узнают об этом, и начнут открываться новые возможности. Это саморазвивающийся процесс. Чем больше вы работаете в области науки о данных, тем больше работы в области науки о данных вы можете получить. Все дело в том, что первый шаг — правильно расставить приоритеты в науке о данных и каждый день спрашивать себя: «Соответствует ли то, что я делаю, моей цели — стать лучшим специалистом по данным?»