Науката за данни е една от най-вълнуващите и възнаграждаващи области на 21 век. Учените по данни използват данни, за да разберат и обяснят явленията около тях и да помогнат на организациите да вземат по-добри решения. Работата като учен по данни може да бъде интелектуално предизвикателство, аналитично удовлетворяващо и да ви постави в челните редици на новите постижения в технологиите.

Но как се става учен по данни? Какви умения и знания са ви необходими? И как можете да постигнете целите си за една година?

В тази публикация в блога ще споделя с вас 1-годишен план да станете шампион в областта на научните изследвания. Този план се основава на моя собствен опит и изследвания, както и на съветите на експерти и практици в областта. Разбира се, това не е единственият начин да станете учен по данни и може да имате различни предпочитания или ограничения, които изискват различен подход. Въпреки това се надявам, че този план може да ви даде някои насоки и вдъхновение за вашето собствено пътуване.

Месец 1 -2: Научете основите на науката за данните

Първата стъпка към това да станете учен по данни е да научите основите на науката за данните. Трябва да сте запознати с концепциите и технологиите, включени в науката за данни, като съхранение на данни, обработка на данни, конвейери за данни, складове за данни, езера от данни, машинно обучение и визуализация на данни.

Трябва също така да научите основите на Python, който е един от най-популярните програмни езици за наука за данни. Трябва да можете да пишете код на Python, който може да изпълнява основни задачи като четене и писане на файлове, манипулиране на структури от данни, използване на цикли и условни изрази, дефиниране на функции и класове и т.н.

Можете да използвате онлайн курсове или уроци, за да научите тези теми, като например:

  • [„Въведение в науката за данните“]
  • [„Python за наука за данни“]

Месец 3–5: Научете статистика и линейна алгебра

Втората стъпка към това да станете учен по данни е да научите статистика и линейна алгебра. Това са математическите основи на науката за данните и те са от съществено значение за разбирането и прилагането на различни техники за анализ на данни и машинно обучение.

Трябва да можете да извършвате описателна и инференциална статистика, като изчисляване на средна стойност, медиана, режим, стандартно отклонение, корелация, доверителни интервали, тестване на хипотези и т.н. Трябва също така да можете да извършвате операции с линейна алгебра, като умножение на матрици, обратно , транспониране, детерминанта, собствени стойности, собствени вектори и др.

Можете да използвате онлайн курсове или уроци, за да научите тези теми, като например:

Месец 6–7: Научете SQL и бази данни

Третата стъпка към това да станете специалист по данни е да научите SQL и бази данни. SQL е език за заявки, който ви позволява да взаимодействате с релационни бази данни, които се използват широко за съхраняване и управление на структурирани данни. Базите данни също са важни за разбирането на това как данните са организирани и достъпни в сценарии от реалния свят.

Трябва да можете да пишете SQL заявки, които могат да изпълняват основни задачи като създаване на таблици, вмъкване на записи, актуализиране на записи, изтриване на записи, избиране на записи, свързване на таблици, филтриране на записи, агрегиране на записи и т.н. Трябва също да сте запознати с концепциите за дизайн на база данни, нормализиране, индексиране, транзакции и др.

Можете да използвате онлайн курсове или уроци, за да научите тези теми, като например:

Месец 8–12: Научете машинно обучение

Четвъртата стъпка към това да станете учен по данни е да научите машинно обучение. Машинното обучение е клон на науката за данни, който се фокусира върху създаването на алгоритми и модели, които могат да се учат от данни и да правят прогнози или решения. Машинното обучение е едно от най-мощните и вълнуващи приложения на науката за данни, тъй като може да решава сложни проблеми, които иначе са трудни или невъзможни за решаване с традиционни методи.

Трябва да можете да разбирате и прилагате различни техники за машинно обучение, като контролирано обучение (регресия, класификация), неконтролирано обучение (групиране,
намаляване на размерността), обучение с подсилване (Q-обучение), дълбоко обучение (невронни мрежи) , и т.н. Трябва също така да сте запознати с концепциите за оценка на модела (точност,
прецизност, припомняне), избор на модел (кръстосано валидиране), оптимизация на модела (настройка на хиперпараметри) и т.н.

Можете да използвате онлайн курсове или уроци, за да научите тези теми, като например:

  • [„Специализация по машинно обучение от Андрю Нг“]

Месец 13 нататък: Създайте Git Repository на случаи на употреба с помощта на Kaggle.

Последната стъпка към това да станете учен по данни е да изградите Git Repository на случаи на употреба с помощта на Kaggle. Kaggle е онлайн платформа, която е домакин на различни състезания по наука за данни и машинно обучение, набори от данни, тетрадки и курсове. Това е чудесен начин да практикувате уменията си, да се учите от другите и да демонстрирате работата си.

Трябва да можете да участвате в някои от състезанията на Kaggle, които ви интересуват и съответстват на вашето ниво на умения. Трябва също така да можете да изследвате някои от наборите от данни и бележниците на Kaggle, които са подходящи за вашия домейн или индустрия. Трябва да можете да прилагате техниките за машинно обучение и библиотеките, които сте научили досега, както и да научавате нови от общността на Kaggle.

Трябва също така да можете да създавате свои собствени преносими компютри Kaggle, които демонстрират вашите проекти за анализ на данни и машинно обучение. Трябва да можете да документирате кода си, да обясните подхода си и да представите резултатите си по ясен и стегнат начин. Трябва също така да можете да споделяте вашите бележници с други и да получавате обратна връзка.

Трябва също така да можете да създадете Git Repository, което съдържа вашите преносими компютри Kaggle и други проекти за наука за данни, които сте направили или върху които работите. Git е система за контрол на версиите, която ви позволява да проследявате и управлявате промените във вашия код. Освен това ви позволява да си сътрудничите с други разработчици и да споделяте своя код с други. Git Repository е колекция от файлове и папки, които се управляват от Git.

Трябва да можете да създадете Git Repository на GitHub, която е уеб-базирана платформа, която хоства Git Repositories и предоставя различни функции и услуги за разработчиците. Трябва да можете да качвате вашите преносими компютри на Kaggle и други проекти за наука за данни във вашето хранилище на GitHub, както и да добавяте файл README, който описва вашето хранилище и неговото съдържание. Трябва също така да можете редовно да актуализирате своето хранилище с нови или подобрени проекти.

Ето някои наистина добри набори от данни на Kaggle, които начинаещи могат да използват → тук

Желая ви всичко най-добро по пътя ви!

Този блог е продължение на блога, който написах на тема 6-месечен план за това да станете утвърден инженер по данни на Azure

Последвайте ме в LinkedIn на адрес — Thomson D’Cruz