Област на науката за данните. Какво е Data Science?

Какво е Data Science?

Науката за данни е многостранната дисциплина за всичко, свързано с данните. С други думи, науката за данните е област на изследване, която съчетава бизнес област, умения за програмиране, алгоритми, принципи на машинно обучение и умения за анализиране, за да извлече смислена представа от данните.

  1. Източник: quora

Както можете да видите от горното изображение, обяснява жизнения цикъл на науката за данни.

  1. Бизнес домейн (разузнаване)

Бизнес разузнаването включва стратегиите и технологиите, използвани от бизнеса за анализ на данни и бизнес факти. човек трябва да може да разбира бизнеса. Задаването на въпроси относно набора от данни и правилната бизнес цел ще помогне за улесняване на процеса на събиране на данни. BI технологиите предоставят исторически, текущи и прогнозни изгледи на бизнес операциите.

2. Извличане на данни

Следващата стъпка е извличането на данни, това е процесът на откриване на полезна информация от големи набори от данни. Извличането на данни използва математически (статистически) анализ, за ​​да извлече модели и тенденции, които съществуват в данните. Тази стъпка включва описание на данните, тяхната структура, техния тип данни и много друга информация. Разгледайте данните с помощта на графични диаграми.

3. Почистване на данни

Почистване на данни или Почистване на данни е процес на коригиране или премахване на неправилни, повредени, неправилно форматирани, дублирани или непълни данни в набор от данни, таблица или база данни и след това замяна, модифициране на данни.

4. Изследване на данни

Проучването на данни може да помогне за намаляване на масивен набор от данни до управляем размер, като тази дата се използва за анализ на данни, при който анализаторите на данни използват визуализация на данни и статистически техники, за да опишат характеристиките на набора от данни, за да разберат по-добре естеството на данните.

5. Инженеринг на функциите

Инженерингът на функции може да се разглежда като самото приложно машинно обучение. Инженерингът на функции е процес на трансформиране на дадени данни за извличане на характеристики. Тези функции могат да се използват за подобряване на производителността на алгоритмите за машинно обучение.

6. Предсказуемо моделиране

Прогнозното моделиране е статистическа техника, използваща машинно обучение и извличане на данни за прогнозиране и прогнозиране на вероятни бъдещи резултати със съществуващите данни. Прогнозното моделиране може да се използва за прогнозиране на почти всичко - от следващата покупка на клиента до кредитните рискове и корпоративните печалби.

7. Визуализация на данни

Визуализацията на данни ни дава ясна представа какво означава информацията, като използва визуални елементи като диаграми, графики и карти. Това прави данните по-естествени за четене от човешкия ум и следователно улеснява идентифицирането на тенденции, модели и отклонения в рамките на големи набори от данни