Все още научавам нови знания всеки ден с нарастващата ми страст в областта на Data Science. За да преследвате различна кариера като завършващ студент по физика, трябва да има въпроси „Защо“ и „Как“, на които трябва да се отговори. След като бях попитан от редица хора за прехода ми от академичните среди — Физика към Data Science, се надявам, че моята история може да отговори на въпросите защо реших да стана Data Scientistи как продължих целтаи в крайна сметка насърчаване, както и вдъхновяване на повече хора да преследват своята страст. Да започваме!

Всичко започна от лятното студентство в ЦЕРН

„Лятната студентска програма на CERN“ предлага възможност веднъж в живота на студенти по физика, компютърни науки и инженерство да се присъединят към един от техните изследователски проекти с водещи учени в мултикултурни екипи в CERN в Женева, Швейцария.

През юни 2017 г. имах голям късмет да бъда приет да се присъединя към програмата. Буквално избухнах от радост, тъй като физиката на елементарните частици винаги е била моят изследователски интерес и възможността да провеждам изследването в CERN беше просто сбъдната мечта за мен! По време на 2-месечния период на стаж направих някои анализ и симулация на реконструкцията на събития на терабайти данни чрез Worldwide LHC Computing Grid & Cloud Computing за експеримента Compact Muon Solenoid (CMS).

Освен това, летните студенти също присъстваха на поредица от лекции, семинари и посещения в съоръженията на CERN, които обхващаха широк спектър от теми в областта на теоретичната и експериментална физика на елементарните частици и компютри.

През този период се запознах с машинното обучение и анализа на големи данни от лекциите, семинарите и дори от самия ми проект. Бях особено поразен от това как тези техники за машинно обучение могат да бъдат използвани за класифициране и откриване на различни микроскопични частици с изключителна прецизност с такова огромно количество данни. Объркан, се потопих дълбоко в темите за машинно обучение и облачни изчисления без колебание, просто защото ми хареса!

Кой на Земята би знаел, че това излагане ще се превърне в повратна точка в живота ми. И да, намерих брака си с DATA.

Въпреки глада ми да науча тези теми обаче, все още имах смътни идеи какво е Data Science. Колкото и неясно да звучеше, знаех, че трябва да науча повече след откриването на моята истинска страст.

Задълбочени изследвания в областта на науката за данни

След като се върнах в Сингапур от моя стаж, направих някои проучвания, за да разбера повече за Data Science и за моя изненада нямаше добре дефинирана дефиниция на тази област. Но като цяло Наука за данни може да се обобщи като комбинация от умения за програмиране, знания по математика и статистика и познания за домейн. Обяснението тук в никакъв случай не е изчерпателно, но за да хвърли малко светлина върху определението като цяло (Всички коментари по това са добре дошли! 😄).

Все пак бях изумен от това как данните могат да се използват за генериране на прозрения и стимулиране на бизнес стойности за компаниите. От разбирането на бизнес проблем до събирането и визуализирането на данни до етапа на прототипиране, фина настройка и внедряване на модели в приложения от реалния свят, открих изпълнението на справянето с предизвикателствата за решаване на сложни проблеми с помощта на данни. Постепенно страстта ми започна да придобива форма...

„Без данни вие сте просто още един човек с мнение“

— У. Едуардс Деминг

Моята отправна точка — Визуализация на данни

През август 2017 г., като първа стъпка към Data Science, се присъединих към надпреварата за NIC Face-Off Data, организирана съвместно от Tableau и Infocomm Media Development Authority (IMDA), като моето първо излагане на визуализация на данни.

Този опит ми даде възможност да използвам Tableau Public, за да визуализирам различни отворени източници на данни, които изследваха произхода на мъглата в Югоизточна Азия, за да осигурят практични прозрения. Много съм развълнуван да споделя с вас простото табло за управление на Tableau (Чувствайте се свободни да оставите вашите коментари по-долу!).

Моят първи задочен стаж за анализ на данни с SMRT

През същия месец се натъкнах на възможността да работя като стажант по анализ на данни на непълен работен ден в mobilityX — стартираща компания, финансирана от SMRT. Използвах Python за кодиране главно поради неговия език за програмиране на високо ниво, четимост и поддръжка от широка общност.

Честно казано, наистина мислех да се откажа от кодирането, когато за първи път започнах да уча програмиране през първата си година в колежа. Борбата да стартирам прост for-цикъл може да ме остави да вися няколко дни (дори седмици!). Дори по-лошо, негативното мислене, че „Аз просто нямам таланти“ ме удари с тежък удар...

Интересът ми към програмирането не беше, докато не започнах изследователски проект с професор от моя факултет, който изискваше разработването на инструменти за анализ на данни по време на третата ми година на обучение. Както може би сте очаквали, започнах да вземам Python, за да създам инструментите и просто се влюбих в него!

Отминаха дните, когато си казвах — „Аз просто нямам таланти“ и бяха заменени от следните стъпки, за да науча програмиране (поне за мен):

  1. Разберете фундаменталната логика на програмирането
  2. Изберете език за програмиране и научете как да го използвате (синтаксис и т.н.)
  3. Практика, практика, практика
  4. Повторете стъпки 1–3

Извинения за отклонението, тъй като бях твърде развълнуван, за да споделя пътя си на обучение с вас в момента на писане...

Е, стажът на непълен работен ден продължи до март 2018 г. и обучението беше ползотворно. Научих и извърших почистване и манипулиране на данни, уеб скрапинг и извличане на данни с помощта на PostgreSQL с Python.

Завърших един семестър по-рано, за да направя стаж по Data Science

Всички предишни преживявания допълнително подсилиха моята страст и поставиха основа към Data Science. Решен, планирах графика на обучението си и успях да се дипломирам по-рано, за да продължа текущия си редовен стаж по Data Science в Quantum Inventions през декември 2017 г.

На този етап може да попитате - Защо отидох на стаж вместо на пълно работно място Data Science? Краткият отговор е — За да получите по-голяма техническа експозиция и да изпитате пълния цикъл на потока Data Science от нулата, като работите с данни от реалния свят, преди да кандидатствате за работа на пълен работен ден.

Тук идва сърцевината на цялата история, където започна моето истинско пътешествие в Data Science. Списъкът по-долу обобщава накратко моя път на обучение с помощта на много страхотни хора и различни онлайн ресурси.

1. Учебници

Първият учебник, който прочетох, беше „Въведение в статистическото обучение — с приложения в R“. Силно препоръчвам този учебник за начинаещи, тъй като книгата се фокусира върху основните концепции на статистическото моделиране и машинното обучение с подробни и интуитивни обяснения. Ако сте хардкор човек с математиката, бихте харесали тази книга: „Елементите на статистическото обучение“.

Други учебници, които си заслужава да бъдат споменати, са „Машинно обучение за абсолютни начинаещи“, „Машинно обучение на Python“ от Себастиан Рашка и „Наръчник за наука за данни в Python“ от Джейк ВандерПлас.

2. Онлайн курсове

Coursera. Машинно обучениепреподава от Андрю Нг, съоснователят на Coursera. Винаги съм бил очарован от способността му да разделя сложните концепции на по-прости части от информация за учене. 11-седмичният курс се фокусира върху контролирано обучение, неконтролирано обучение и най-добри практики в машинното обучение с практически приложения в реалния свят. Все още понякога се обръщам към бележките от лекциите, за да реша проблеми с недостатъчното или прекомерното оборудване, когато изграждам модели за машинно обучение.

Udemy. Python за обучение на данни и машинно обучение Bootcampпреподава от Хосе Портила. Този курс започва с преподаване на основите на Python и продължава да ви напътства стъпка по стъпка как да внедрите различни кодове за машинно обучение и дълбоко обучение с помощта на scikit-learn и tensorflow. Този курс ми даде чудесен преглед на различни библиотеки, налични в Python за внедряване на модели за машинно обучение. В допълнение силно препоръчвам моя личен любим курс: Deep Learning A-Z™: Практически изкуствени невронни мрежипреподаван от Кирил Еременко и Хаделин де Понтевес. Това беше първото ми излагане на задълбочено обучение и повярвайте ми, техният курс е наистина единствен по рода си с голям акцент върху инстинктивното ниво на разбиране с практически уроци по кодиране за контролирано и неконтролирано задълбочено обучение.

Линда. Python за основното обучение по наука за даннипреподава от Лилиан Пиърсън. Курсът преподава основите на събирането на данни и визуализацията на данни с друг статистически анализ.

3. LinkedIn

Добре. Значи се интересувате от полето Data Science/Analytics? След това създайте акаунт в LinkedInако нямате такъв.

LinkedIn е толкова мощна платформа със сплотена общност на Data Science. Средата за споделяне и обучение е просто невероятна, че хората са готови да споделят своя опит, мисли и знания, за да помогнат на другите. Всъщност LinkedIn е мястото, където научавам най-много, било то технически познания, съвети за кариера и т.н. Вдъхновен, сега започвам да връщам на общността, като споделям моите мисли и опит в моя LinkedIn. 😃

Някои специалисти по данни дори се събират, за да провеждат седмичен уебинар — Работно време за Data Science, за да обсъдят и дадат представа за основите на Data Science (подготовка на данни, извличане на характеристики, визуализация на данни и т.н.). Не пропускайте да го разгледате!

4. Други ресурси

Повечето начинаещи в областта на науката за данни много често са затрупани с океани от ресурси (като мен) и човек може просто да бъде много объркан кой да избере. Един от моите приятели в LinkedIn — Randy Lao сподели много изчерпателен списък с ресурси за наука за данни, които се актуализират периодично.

Други учебни платформи или ресурси, които намирам за полезни, включват Към Data Science, Quora, DZone, KDnuggets, Analytics Vidhya, DataTau, fast.aiи много други!

Изграждане на портфолио

Имайте портфолио, за да покажете вашия опит и способности, особено когато нямате докторска степен, за да бъдете Data Scientist.

Тъй като имам бакалавърска степен по физика без каквато и да е степен по компютърни науки, нито имам подходяща експозиция през първите ми три години в колежа, необходимо е изграждането на моето портфолио в допълнение към изучаването на широки теми от MOOCs. Това е важно, защото в крайна сметка компаниите искат да знаят какво сте научили и как можете да допринесете и да добавите стойност към техния бизнес.

Това също е една от причините, поради които реших да продължа настоящия си стаж, докато съчетавам стажа си на непълен работен ден и ученето от MOOC. Освен това, аз също съм доброволец с организацията за данни — DataKind, за да увелича максимално социалното въздействие, като помагам на други неправителствени организации да решат проблемите си.

Винаги съм искал да участвам в състезания на Kaggle и неотдавна получих шанса да се присъединя към „предизвикателство за машинно обучение“ с моите приятели в Kaggle, което беше организирано от Shopee и Institution of Engineering and Technology (IET). Бях много благодарен, че бях част от екипа и определено научих много от тях. Не пропускайте да разгледате техните профили — Low Wei Hong, Chong Ke Xin, и Ling Wei Onn!

Това беше първият ми път да се присъединя към състезание на Kaggle и да науча как да използвам конволюционни невронни мрежи (CNN) и да прехвърля наученото за разпознаване на изображения. Кривата на учене беше стръмна, но пътуването определено беше възнаграждаващо! Очакваме с нетърпение да споделим с вас повече за проекта на нашия конкурс в следващата публикация!

Ако времето позволява, също се надявам да споделя с вас някои от моите стажантски проекти в моите бъдещи публикации и кодовете ще бъдат качени в GitHub.

Последни мисли...

Изберете работа, която обичате, и никога няма да ви се наложи да работите нито ден в живота си

Това е всичко за сега. Надявам се, че хвърлих малко светлина върху индустрията на Data Science и направих обучението за Data Science по-малко страшно, но по-забавно и по-достъпно! Никога не съм изпитвал чувството, че „Колкото повече научавам, толкова повече трябва да науча“, докато не се сблъсках с Data Science, което ми дава предизвикателства и удовлетворение.

Надявам се, че като документирам моето учебно пътуване, тази публикация може по някакъв начин да ви вдъхнови да следвате страстта си въпреки предизвикателствата и трудните обстоятелства.

Благодаря ви, че прочетохте тази публикация. Това е първата ми статия и наистина ще съм ви благодарен, ако оставите вашите отзиви и коментари за това как мога да подобря допълнително съдържанието. Ще създам повече публикации в бъдеще за моя опит и проекти.

Ако имате някакви въпроси, просто ме добавете и нека поговорим в LinkedIn или посетете моя личен уебсайт за повече:

за автора

Admond Lee вече е в мисията да направи науката за данните достъпна за всички. Той помага на компаниите и агенциите за дигитален маркетинг да постигнат маркетингова възвръщаемост на инвестициите с реални прозрения чрез иновативен подход, базиран на данни.

Със своя опит в усъвършенстваните социални анализи и машинно обучение Адмонд има за цел да преодолее пропуските между дигиталния маркетинг и науката за данните.

Разгледайте неговия уебсайт, ако искате да разберете повече за историята на Admond, услугите за научни данни и как той може да ви помогне в маркетинговото пространство.

Можете да се свържете с него в LinkedIn, Medium, Twitter и Facebook.