Откройте для себя Numpy, Pandas и SciKit Learn.

Начиная с машинного обучения, вы видите термины Numpy, Pandas и SciKit Learn, упомянутые вокруг, независимо от того, актуальны они или нет. Эта статья поможет вам понять каждый термин и обязательно пригодится, когда вы будете заняты осваиванием машинного обучения.

Numpy

Numpy означает числовой питон. Судя по названию, это библиотека с открытым исходным кодом для языка программирования Python. Я слышал, вы думаете: «Еще одна библиотека…», но это не так! Numpy - одна из самых полезных библиотек, особенно если вы обрабатываете числа.

Цель

Numpy добавляет поддержку больших многомерных матриц и массивов, а также гигантскую коллекцию математических функций верхнего уровня для работы с этими массивами и матрицами. Его цель - упростить преобразование сложных функций или вычислить анализ данных. Самым большим преимуществом Numpy является его быстрота. Это намного быстрее, чем использование встроенных функций Python.

Например, он позволяет вам просто вычислить среднее значение и медианное значение кадра данных с простой строкой кода для каждого:

np.median(ages)
np.mean(ages)

Как импортировать

Во-первых, вам нужно установить Numpy, но только если вы не используете Anaconda. Для этого:

pip install numpy

Вы всегда импортируете Numpy как np, это просто оговорено молчанием.

import numpy as np

Панды

Pandas - это библиотека Python с открытым исходным кодом, которая предоставляет вам очень полезный набор инструментов для анализа данных. Изучение панд является обязательным условием для развития вашей игры с машинным обучением. Он используется не только для анализа данных, но и для анализа данных, машинного обучения… Проще говоря: если он использует данные, вам понадобятся Pandas. Он может помочь вам загрузить, подготовить, объединить, объединить, изменить форму, проанализировать, обработать и настроить данные в мгновение ока.

Цель

Как упоминалось выше, Pandas - это библиотека с открытым исходным кодом, которая позволяет вам легко использовать структуры данных и инструменты анализа данных для языка программирования Python. Pandas построен вокруг объектов DataFrame. Все ваши данные поступают в один большой DataFrame, где вы можете выбрать некоторые образцы или другие манипуляции с данными, если хотите.

Некоторые другие необычные вещи, которые позволяет вам делать Pandas:

  • Чтение и запись данных между структурами данных в памяти и различными форматами, такими как CSV, текстовые файлы, файлы Microsoft Excel, базы данных SQL и т. д.
  • Высокопроизводительное слияние и объединение наборов данных
  • Согласование данных и интегрированная обработка недостающих данных

Как импортировать

Во-первых, вам нужно установить Numpy, но только если вы не используете Anaconda. Для этого:

pip install pandas

Вы всегда импортируете Pandas как pd, это просто оговорено молчанием.

import pandas as pd

SciKit Learn

SciKit Learn - это популярная библиотека для машинного обучения. Это библиотека, основанная Google в рамках проекта Google Summer of Code. Название произошло от:

sci Py Tool набор

Цель

Как и Pandas и Numpy, это библиотека Python, но SciKit более специфичен для машинного обучения. SciKit Learn включает в себя все, от обработки наборов данных до показателей обработки. Одна из лучших особенностей SciKit Learn - это встроенные алгоритмы машинного обучения, которые вы можете просто опробовать с минимальными настройками. Такие функции, как классификация, регрессия, кластеризация, режим, выбор модели и другие, как правило, встроены.

Как импортировать

Scikit Learn требует Python и NumPy. Для построения графиков (функции, начинающиеся с "plot_") вам сначала нужно импортировать Matplotlib. Если вы уже установили Numpy, вы можете просто установить SciKit следующим образом:

Прежде всего вам необходимо установить SciKit, но только если вы не используете Anaconda. Для этого:

pip install scikit-learn

Поскольку обычно вам не нужна вся библиотека, вы можете легко импортировать только ее часть:

from sklearn import tree
#for importing the decision tree function

Самое замечательное в Numpy, Pandas и Scikit Learn то, что они все работают вместе. По умолчанию нужно загружать / очищать / манипулировать вашими данными с помощью Pandas. Переведите свой Pandas DataFrame в массив Numpy и передайте его функциям Scikit Learn. Часто это происходит автоматически, поэтому вам не нужно беспокоиться об этом процессе.

Ну это все! Я надеюсь, что это поможет любому, кто испытывает трудности с пониманием Numpy, Pandas и Scikit Learn. Обязательно подпишитесь на меня, чтобы узнать о других проблемах и решениях, с которыми я сталкиваюсь в React Native и машинном обучении!