Anaconda е най-популярната и стабилна дистрибуция на Python в сравнение с дистрибуциите Miniconda и Conda. Толкова централизиран и полезен е, че съдържа галерия от приложения, популярни в науката за данни; има интерактивен потребителски интерфейс; и може да изпълнява колкото се може повече пакети със или без conda команди.

Докато подготвя данни, специалистът по данни трябва да познава четирите основни пакета на Python, изисквани от Jupyter Notebook за плавен анализ на данни и операции за прогнозен анализ:

  • Numpy за изчисляване на масиви и матрици. Той има няколко математически функции и може да се използва за генериране на произволни числа.
  • Pandas е много важен за осигуряване на бързи и гъвкави структури от данни. Може да извършва различни операции за анализиране, почистване, изследване и манипулиране на данни.
  • Matplotlibи Seaborn за визуализация на данни. Matplotlib е най-основната и популярна библиотека за чертане, докато Seaborn е разширение на Matplotlib за изграждане на атрактивни и информативни графики с прости редове кодове.
  • Scikit-learn за предсказуем анализ на данни с помощта на различни вградени алгоритми.

Този урок изисква да изтеглите и инсталирате Anaconda, персонализирана за вашата операционна система тук.

Как да инсталирате и актуализирате библиотеки за наука за данни

Метод на графичния потребителски интерфейс на Anaconda

  • След като изтеглите и инсталирате anaconda, потърсете и щракнете върху приложението Anaconda Navigator.
  • Щракнете върху раздела Среди обозначен с 1 в левия панел. Кликнете върху падащото меню обозначено с 2, за да видите инсталираните и деинсталираните пакети. Щракнете върху лентата за търсене обозначена с 3, за да търсите произволен пакет.

Например, за да инсталирате пакет с алгоритъм за машинно обучение, наречен xgboost:

  • Въведете xgboost в лентата за търсене на пакети, за да върнете списък с пакети. Пакетите, които не са инсталирани, не са отметнати
  • Проверете опцията xgboost и щракнете върху приложи.

  • Ще се появи друг прозорец, който ви подканва за свързаните пакети. Щракнете върху приложи отново, за да потвърдите инсталирането

Метод за подкана на Anaconda

Anaconda Prompt shell позволява изпълнението на conda команди за управление и внедряване на пакети в дистрибуцията на Anaconda. Този метод е по-малко досаден, тъй като инсталацията изисква прости редове кодове за изпълнение на пакети. GUI методът изисква да вземете под внимание всички зависимости на пакета преди тяхното инсталиране.

  • След като изтеглите и инсталирате anaconda, потърсете и отворете приложението Anaconda Prompt.
  • Вече можете да добавяте conda команди към C:\Users\username›команден ред, например:

  • Изпълнете следните команди, за да инсталирате основни пакети за Data Science:

NumPy:

conda install numpy

панди:

conda install pandas

Matplotlib:

conda install matplotlib

Seaborn:

conda install seaborn

Scikit-learn:

conda install scikit-learn

Повторното изпълнение на всички команди по-горе в Anaconda Prompt ще върне съобщение за потвърждение, че сте инсталирали пакет.

Можете също да потвърдите инсталирането на пакета в Python чрез Jupyter:

  • Отворете Anaconda Navigator
  • Щракнете върху стартиранезаотворете записа Jupyter Notebook

  • След като стартирате Jupyter в браузър, щракнете върху падащото меню Ново и изберете ядрото на Python по подразбиране.

  • Можете да проверите дали даден пакет е инсталиран, като стартирате клетките с ключова дума импортиране, както е показано.

Ако пакет не е инсталиран, стартирането на клетка ще изпълни ModuleNotFoundError.

Друга възможност е да изпълните прост команден ред по-долу, за да привлечете вече инсталираните пакети и версии.

conda list

Как да превключвате между Python и R

R, подобно на Python, е друг общ инструмент, използван за статистически анализи, визуализации и друг анализ на данни. Потребителите могат да решат да сменят езиците за програмиране поради причини като ефективност, ниво на трудност или гъвкавост. Например R е по-ефективен по отношение на манипулиране на данни и визуализация със специални пакети. От друга страна, Python има лесен синтаксис и е съвместим с повечето облачни услуги като AWS и Azure.

Python е езикът по подразбиране в Jupyter Notebook, докато R може да се инсталира ръчно само със следните стъпки:

  • Изпълнете командата conda по-долу в Anaconda Prompt:
conda install -c r r-irkernel

  • Въведете yзадакогато бъдете подканени да продължите с инсталирането на пакети r и r-ikernel.

  • Отворете приложението Anaconda Navigatorи стартирайтеJupyter Notebook.
  • След като стартирате Jupyter в браузър, щракнете върху падащото меню Ново и потвърдете дали R ядрото е добавено.

Обобщение

Anaconda може да се използва за целите на науката за данни и машинното обучение за:

  • Инсталирайте и актуализирайте пакети, свързани с данни
  • Проверете всички инсталирани библиотеки и техните версии
  • Превключете към различен език за статистическо програмиране

Anaconda предоставя система „всичко в едно“, която ви помага да изберете метода за управление и внедряване на пакети. Специалистът по данни трябва да знае само как да манипулира данни и какъв тип пакет или език е необходим, за да постигнете целта си.