Я по-прежнему изучаю новые знания каждый день с моей растущей страстью в области Data Science. Чтобы продолжить карьеру выпускника-физика, необходимо ответить на вопросы «Почему» и «Как». Меня спрашивали о моем переходе от академической науки - физики к науке о данных, и я надеюсь, что моя история ответит на вопросы о том, почему я решил стать специалистом по данным и как я добился этого. цель, и, в конечном итоге, поощрять, а также вдохновлять больше людей на то, чтобы заниматься своей страстью. Давайте начнем!

Все началось с летнего обучения в ЦЕРНе.

Летняя студенческая программа в ЦЕРНе предлагает студентам бакалавриата, изучающим физику, информатику и инженерию, уникальную возможность присоединиться к одному из своих исследовательских проектов с ведущими учеными в мультикультурных группах в ЦЕРН в Женеве, Швейцария.

В июне 2017 года мне очень повезло, что меня приняли в программу. Я буквально взорвался от радости, поскольку физика элементарных частиц всегда была моим исследовательским интересом, а возможность проводить исследования в ЦЕРНе была для меня просто воплощением мечты! В течение двухмесячного периода стажировки я провел анализ и моделирование событий реконструкции терабайтов данных с помощью всемирной вычислительной сети LHC и облачных вычислений для эксперимента Компактный мюонный соленоид (CMS).

Кроме того, летние студенты также посетили серию лекций, семинаров и посещений объектов ЦЕРН, которые охватили широкий круг тем в области теоретической и экспериментальной физики элементарных частиц и вычислений.

В течение этого периода я познакомился с машинным обучением и аналитикой больших данных на лекциях, семинарах и даже в моем проекте. Я был особенно поражен тем, как эти методы машинного обучения можно использовать для классификации и обнаружения различных микроскопических частиц с необычайной точностью с таким огромным объемом данных. Озадаченный, я без колебаний углубился в темы машинного обучения и облачных вычислений просто потому, что мне это понравилось!

Кто бы мог подумать, что это разоблачение станет переломным моментом в моей жизни. И да, я нашла свой брак с ДАННЫМИ.

Однако, несмотря на мое желание изучить эти темы, я все еще имел смутное представление о том, что такое Data Science. Как бы расплывчато это не звучало, я знал, что должен узнать больше после открытия моей истинной страсти.

Углубленное исследование в области науки о данных

Вернувшись в Сингапур после стажировки, я провел небольшое исследование, чтобы больше узнать о Data Science, и, к моему удивлению, четкого определения этой области не было. Но в целом Науку о данных можно охарактеризовать как комбинацию навыков программирования, знаний математики и статистики и знаний предметной области. Объяснение здесь ни в коем случае не является исчерпывающим, но проливает свет на определение в целом (любые комментарии по этому поводу приветствуются!).

Тем не менее я был поражен тем, как данные могут быть использованы для получения информации и повышения ценности бизнеса для компаний. От понимания бизнес-проблемы до сбора и визуализации данных до стадии прототипирования, точной настройки и развертывания моделей в реальных приложениях - я нашел способ решения сложных задач с использованием данных. Постепенно моя страсть начала формироваться ...

«Без данных вы просто еще один человек, у которого есть мнение»

- У. Эдвардс Деминг

Моя отправная точка - визуализация данных

В августе 2017 года, сделав первый шаг к Data Science, я присоединился к конкурсу NIC Face-Off Data, совместно организованному Tableau и Infocomm Media Development Authority (IMDA) в качестве моего первого знакомства с визуализацией данных.

Этот опыт дал мне возможность использовать Tableau Public для визуализации различных открытых источников данных, которые исследовали происхождение дымки в Юго-Восточной Азии, чтобы предоставить практические идеи. Я очень рад поделиться с вами простой панелью управления Tableau (не стесняйтесь оставлять свои комментарии ниже!).

Моя первая стажировка по аналитике данных с частичной занятостью в SMRT

В том же месяце я наткнулся на возможность поработать на полставки стажером по анализу данных в MobilityX - стартапе, финансируемом из SMRT. Я использовал Python для кодирования в основном из-за его высокоуровневого языка программирования, удобочитаемости и поддержки широким сообществом.

Честно говоря, я действительно думал о том, чтобы отказаться от программирования, когда впервые начал изучать программирование на первом году обучения в колледже. Из-за проблем с запуском простого цикла for я мог зависнуть на несколько дней (даже недель!). Хуже того, негативное мышление о том, что «у меня просто нет талантов» нанесло мне тяжелый удар ...

Я заинтересовался программированием только после того, как приступил к исследовательскому проекту с профессором моего факультета, который потребовал разработки инструментов анализа данных во время моего третьего года обучения. Как и следовало ожидать, я начал брать Python для создания инструментов и просто влюбился в него!

Прошли те времена, когда я говорил себе: «У меня просто нет талантов» и заменялся следующими шагами по изучению программирования (по крайней мере, для меня):

  1. Понять фундаментальную логику программирования
  2. Выберите язык программирования и узнайте, как его использовать (синтаксис и т. д.)
  3. Практика, практика, практика
  4. Повторите шаги 1–3

Приносим извинения за отклонение от курса, так как я был слишком взволнован, чтобы поделиться с вами своим опытом обучения в момент написания ...

Что ж, стажировка по совместительству продлилась до марта 2018 года, и процесс обучения был плодотворным. Я изучил и выполнил очистку и обработку данных, веб-парсинг и извлечение данных, используя PostgreSQL с Python.

Я закончил семестр раньше, чтобы пройти стажировку в области Data Science.

Все предыдущие опыты еще больше укрепили мою страсть и заложили основу для науки о данных. Решив, я спланировал свое обучение и сумел закончить учебу раньше, чтобы продолжить текущую стажировку в области Data Science в компании Quantum Inventions в декабре 2017 года.

На этом этапе вы можете спросить - Почему я пошел на стажировку вместо штатной должности в области Data Science? Краткий ответ: чтобы получить больше технических знаний и испытать полный цикл обработки данных с нуля, работая с данными из реального мира, прежде чем подавать заявку на работу на полную ставку.

Вот и вся история, с которой началось мое настоящее путешествие в области науки о данных. В приведенном ниже списке кратко изложен мой путь обучения с помощью многих замечательных людей и различных онлайн-ресурсов.

1. Учебники

Самым первым учебником, который я прочитал, было Введение в статистическое обучение - с приложениями в R. Я настоятельно рекомендую этот учебник для начинающих, поскольку в книге основное внимание уделяется фундаментальным концепциям статистического моделирования и машинного обучения с подробными и интуитивно понятными объяснениями. Если вы математически заядлый человек, вам понравится эта книга: Элементы статистического обучения.

Также стоит упомянуть Машинное обучение для абсолютных новичков, Машинное обучение Python Себастьяна Рашки и Справочник по науке о данных Python Джейка Вандерпласа.

2. Онлайн-курсы

Coursera. Машинное обучение преподает Эндрю Нг, соучредитель Coursera. Меня всегда восхищала его способность разбивать сложные концепции на более простые части информации для изучения. 11-недельный курс посвящен обучению с учителем, обучению без учителя и передовым методам машинного обучения с практическими приложениями в реальном мире. Я до сих пор иногда обращаюсь к конспектам лекций, чтобы решить проблемы недостаточной или избыточной подгонки при построении моделей машинного обучения.

Удеми. Учебный курс Python для науки о данных и машинного обучения, который преподает Хосе Портилла. Этот курс начинается с обучения основам Python и переходит к пошаговым инструкциям по реализации различных кодов машинного обучения и глубокого обучения с использованием scikit-learn и tensorflow. Этот курс дал мне отличный обзор различных библиотек, доступных в Python, для реализации моделей машинного обучения. Кроме того, я настоятельно рекомендую свой любимый курс: Глубокое обучение A – Z ™: практические искусственные нейронные сети, который преподают Кирилл Еременко и Хаделин де Понтевес. Это было мое первое знакомство с глубоким обучением, и поверьте мне, их курс действительно единственный в своем роде с большим акцентом на инстинктивном уровне понимания с практическими уроками кодирования по контролируемому и неконтролируемому глубокому обучению.

Линда. Python для базового обучения науке о данных преподает Лилиан Пирсон. Курс обучает основам обработки данных и визуализации данных с другим статистическим анализом.

3. LinkedIn

Хорошо. Итак, вас интересует область Data Science / Analytics? Затем создайте учетную запись LinkedIn, если у вас ее нет.

LinkedIn - такая мощная платформа с сплоченным сообществом Data Science. Среда совместного обучения просто потрясающая, потому что люди готовы делиться своим опытом, мыслями и знаниями, чтобы помочь другим. Фактически, LinkedIn - это то место, где я узнаю больше всего, будь то технические знания, советы по карьере и т. Д. Вдохновленный, я теперь начинаю возвращать сообществу, делясь своими мыслями и опытом в моем LinkedIn. 😃

Некоторые специалисты по данным даже собираются вместе, чтобы проводить еженедельный веб-семинар - Часы работы офиса по анализу данных, чтобы обсудить и дать представление об основах Data Science (подготовка данных, извлечение функций, визуализация данных и т. Д.). Обязательно зацените!

4. Другие ресурсы

Большинство новичков в области Data Science очень часто были перегружены океаном ресурсов (как и я), и можно было просто не понять, какой из них выбрать. Один из моих друзей в LinkedIn - Рэнди Лао поделился очень полным списком ресурсов Data Science, которые периодически обновляются.

Другие обучающие платформы или ресурсы, которые я считаю полезными, включают На пути к науке о данных, Quora, DZone, KDnuggets , Analytics Vidhya , DataTau , fast.ai и многие другие!

Создание портфолио

Имейте портфолио, чтобы продемонстрировать свой опыт и способности, особенно если у вас нет докторской степени, чтобы стать специалистом по данным.

Поскольку у меня есть степень бакалавра физики без какой-либо степени в области компьютерных наук, в течение первых трех лет учебы в колледже у меня нет соответствующего опыта, поэтому необходимо составить свое портфолио в дополнение к изучению широких тем из МООК. Это важно, потому что, в конце концов, компании хотят знать, что вы узнали и как вы можете внести свой вклад и повысить ценность их бизнеса.

Это также одна из причин, по которой я решил продолжить свою нынешнюю стажировку, совмещая стажировку с частичной занятостью и обучение на МООК. Кроме того, я также являюсь волонтером в организации данных - DataKind, чтобы максимизировать социальное воздействие, помогая другим НПО решать их проблемы.

Я всегда хотел участвовать в соревнованиях Kaggle, и не так давно у меня появилась возможность принять участие в соревновании по машинному обучению с моими друзьями на Kaggle, которое было организовано Shopee и Институтом инженерии и технологий (IET). Я был очень благодарен за то, что стал частью команды, и определенно многому у них научился. Обязательно загляните в их профили - Low Wei Hong, Chong Ke Xin, и Ling Wei Onn!

Это был мой первый раз, когда я участвовал в соревновании Kaggle и узнал, как использовать сверточные нейронные сети (CNN) и передавать обучение для распознавания изображений. Кривая обучения была крутой, но путешествие определенно было полезным! Будем рады поделиться с вами более подробной информацией о проекте нашего конкурса в следующем посте!

Если позволит время, я также надеюсь поделиться с вами некоторыми из моих проектов стажировок в моих будущих публикациях, а коды будут загружены на GitHub.

Последние мысли…

Выберите работу, которая вам нравится, и вам не придется работать ни дня в жизни

На этом пока все. Я надеюсь, что пролил свет на отрасль Data Science и сделал изучение Data Science менее пугающим, но более увлекательным и доступным! Я никогда не испытывал чувства, что «Чем больше я узнаю, тем больше мне нужно учиться», пока я не наткнулся на науку о данных, которая доставляет мне трудности и удовлетворение.

Я надеюсь, что, документируя мое учебное путешествие, этот пост может в некотором роде вдохновить вас на то, чтобы заниматься своим увлечением, несмотря на трудности и трудные обстоятельства.

Спасибо, за то что прочитали эту статью. Это моя первая статья, и я буду очень признателен, если вы оставите свои отзывы и комментарии о том, как я могу улучшить ее содержание. В будущем я буду создавать больше сообщений о моем опыте и проектах.

Если у вас есть какие-либо вопросы, просто добавьте меня, и давайте поговорим в LinkedIn или посетите мой личный сайт, чтобы узнать больше:

об авторе

Миссия Адмонда Ли - сделать науку о данных доступной для всех. Он помогает компаниям и агентствам цифрового маркетинга достичь рентабельности инвестиций в маркетинг с помощью практических идей с помощью инновационного подхода, основанного на данных.

Обладая опытом в продвинутой социальной аналитике и машинном обучении, Адмонд стремится преодолеть разрыв между цифровым маркетингом и наукой о данных.

Посетите его веб-сайт, если вы хотите больше узнать об истории Адмонда, услугах по обработке и анализу данных и о том, как он может помочь вам в маркетинге.

Вы можете связаться с ним в LinkedIn, Medium, Twitter и Facebook.