Всички сме имали проблеми при работа с големи файлове с данни (›500 мегабайта), докато нямаме достатъчно изчисления на локална машина, ако имаме късмет, ще се сблъскаме с грешка в паметта, а ако не, системата просто ще ЗАМРЪЗНЕ, което не само възпрепятства производителността, но е и доста разочароващо.

Но не се притеснявайте, Google ни покри, представяйки Google Colaboratory:

Colaboratory е безплатна среда за преносим компютър Jupyter, която не изисква настройка и работи изцяло в облака.

Без повече шум, нека започнем урока,
За целите на този урок ще работя с данните AmExpert 2018 (хакатон за машинно обучение) на Analytics Vidhya, които са приблизително 750 MB.

СТЪПКА 1: Качете данните в Google диск

Първо, ще трябва да качим нашите данни в google диск, за това отворете вашето устройство в браузъра → Щракнете с десен бутон → Качете папката, съдържаща вашите данни.

Качвам папката amexpert_2018, която съдържа папката с данни, съхраняваща файловетеtrain.csv, test.csv и history_user_logs.csv. historical_user_logs.csv е 755 MB (това е файлът, който ще заредя като рамка с данни). Сега, в зависимост от размера на вашия файл и вашата интернет връзка, тази стъпка може да отнеме от няколко минути до няколко часа.

СТЪПКА 2: Стартирайте нова среда на Colab

След като папката бъде качена, навигирайте до папката и стартирайте нова среда на Google Colab, която не е нищо друго освен преносим компютър на jupyter, работещ в облак. За това:

Щракнете с десния бутон някъде във вашия качен фладер → Още → Съвместна работа

Това ще отвори бележник в нов раздел на браузъра, можете да промените спецификациите за време на изпълнение на средата, като например коя версия на Python да използвате или дали да използвате хардуерен ускорител като GPU/TPU или не. За целта навигирайте до Време на изпълнение → Промяна на типа време на изпълнение и ще видите този изскачащ прозорец.

СТЪПКА 3: Монтирайте вашата среда Colab към устройството

Това е най-важната стъпка, тъй като това е стъпката, която ще направи наличните данни в устройството достъпни за нашата среда за сътрудничество. За целта изпълнете следните команди в кодова клетка.

from google.colab import drive
drive.mount(‘/content/drive’)

Това ще изведе URL адрес, щракнете върху URL адреса, изберете вашия акаунт в Google и ще дадете разрешение за получаване на кода за оторизация, поставете кода за оторизация в показаното текстово поле и натиснете enter. Трябва да видите подобен екран при успешно монтиране.

Сега сте готови да работите с вашите данни, но преди да го направите, сменете текущата директория с тази, в която искате да работите (тази, която съхранява вашите данни),за това ще използваме os библиотека и използвайте следните команди

import os
os.chdir('drive/My Drive/amexpert_2018')

Можете да проверите дали сте в правилната директория с тази команда:

! ls

Това просто ще изведе всички файлове и папки в текущата работна директория, това трябва да е точно съдържанието на папката, която сте качили.

ТОВА Е, това е всичко, което има при настройването на средата, сега можете да продължите по начин, подобен на този, който правите във вашата локална среда на преносим компютър jupyter.

ЗАБЕЛЕЖКА:Средата на Google Colab по подразбиране има популярни библиотеки на Python като numpy, pandas, sklearn и др., но ако имате нужда отвъншна библиотека можете да я инсталирате, например:

! pip install tensorflow

Здравейте на всички! Аз съм последна година студент в IIT Roorkee (Индия) с интереси в науката за данни и машинното обучение. Онлайн общността за наука за данни и машинно обучение беше невероятно полезна и гостоприемна, с усилия като тези, които възнамерявам да върна на тази страхотна общност, която беше изключително полезна в обучението ми.