Kaggle Kernels за начинаещи — Ръководство стъпка по стъпка

Някога назад написах статия, озаглавена „„Покажете своите умения в областта на науката за данните с Kaggle Kernels““ и по-късно осъзнах, че въпреки че статията направи добра претенция за това как Kaggle Kernels може да бъде мощно портфолио за учен по данни, тя го направи нищо за това как един напълно начинаещ може да започне с Kaggle Kernels.

Това е опит да хванете ръцете на напълно начинаещ и да го преведете през света на Kaggle Kernels — за да могат да започнат.

Регистрирайте се в Kaggle — https://www.kaggle.com/

Ако нямате акаунт в Kaggle, първата стъпка е да се регистрирате в Kaggle. Можете да използвате своя акаунт в Google или акаунт във Facebook, за да създадете новия си акаунт в Kaggle и да влезете. Ако няма нито едно от изброените по-горе, можете да въведете своя имейл адрес и предпочитаната от вас парола и да създадете своя нов акаунт.

Влизане в Kaggle

Ако вече имате акаунт или току-що сте създали такъв, щракнете върху бутона влизанев горния десен ъгъл на страницата, за да започнете процеса на влизане. Отново ще ви бъде дадена опция да влезете с Google / Facebook / Yahoo или последния, с паролата на потребителското име, която сте въвели, докато създавате акаунта си.

Табло за управление на Kaggle

След като влезете, ще бъдете отведени до таблото за управление на Kaggle. (Това е само страницата за добре дошли, не знам как друго да нарека, затова я нарекох табло за управление).

Ето как вашата целева страница се появява веднага след като влезете (ако сте влезли от https://www.kaggle.com/). Има много компоненти, малко от тях:

Емисия на Kaggle ядра, които наскоро са актуализирани или препоръчани за вас от Kaggle
Резюме на профила (първата дясна странична лента)
Обява за работа (дясна странична лента)
Вашите състезания (дясна странична лента — след превъртане надолу)
Вашите ядра (дясна странична лента — след превъртане надолу)

Следващото направление е горният бутон Ядра в лентата за навигация.

Списък на ядрата на Kaggle (най-горещите):

След като щракнете върху горния бутон Kernels от което и да е място на Kaggle Journey, ще се приземим на този екран.

Това е екранът, където всеки се опитва да види своето ядро, защото това е като началната страница на ядрата, което означава, че вашето ядро има по-голяма вероятност да получи много повече видимост, ако се окаже тук. Редът на сортиране по подразбиране в страницата с ядра е Горещост, който се основава на тайния алгоритъм за сос на Kaggle, за да продължи да показва подходящи ядра, но има и други опции (за сортиране), като Ново, Най-много гласове и т.н. Kaggle също използва тази страница, за да рекламира, ако се случва / ще се случи някакво състезание за ядро.

Докато сме тук, A Kernel Contest е състезание на Kaggle, което не попада в нивото на състезанието поради естеството на състезанието, където резултатът е ядро на Kaggle и по-често се фокусира върху разказването на истории. Data Science for Good е една такава поредица от състезания на Kernel, където Data Scientist / Kaggler се очаква да помогне при социален проблем (за добро) с помощта на Data Science. За да разберете повече от това, трябва да проверите ядрата на Kernel Grandmaster Shivam Bansal, който е изградил навика да ги печели толкова много пъти.

Kaggle Kernels — Ново/Създаване:

Сега, след като разбрахме мета на Kaggle Kernels, можем да преминем направо към създаването на нови ядра. Има два основни начина, по които може да се създаде Kaggle Kernel:

От Kaggle Kernels (първа страница) с помощта на бутона за ново ядро
От страница с набор от данни с помощта на бутон за ново ядро

Метод #1: От Kaggle Kernels (първа страница) с помощта на бутона за ново ядро

Както можете да видите на екранната снимка по-горе, щракването върху бутона New Kernel от страницата Kernels ще ви позволи да създадете ново ядро. Този метод е добър, ако се опитвате да практикувате нещо свое или планирате да въведете свой собствен набор от данни. Този метод не е препоръчителен (по мое мнение), ако искате да създадете ядро за набор от данни, който вече съществува в Kaggle.

Метод №2: От страница с набор от данни чрез бутон за ново ядро

Това е един от най-популярните методи (поне от мен) за създаване на нови ядра. Можете да отворите страницата с набор от данни на набора от данни, който ви интересува (като този на екранната снимка по-долу) и след това да щракнете върху бутона Ново ядро там. Предимството на този метод е, че за разлика от метод #1, в този метод #2 наборът от данни на Kaggle, от който е създадено ядрото, идва прикачен с ядрото (по подразбиране), като по този начин улеснява този скучен процес на въвеждане на набор от данни във вашето ядро, по-бързо и лесно.

Kaggle Kernels — Тип ядро:

Независимо от метод #1 или #2, след като щракнете върху Ново ядро, ще ви бъде представен този модален екран, за да изберете типа ядро на Kaggle, който искате да създадете.

Най-общо това са две категории — 1. Скрипт срещу 2. Бележник.

Както всички знаем за Notebook (базирано на клетки оформление), това е точно това, което е Jupyter Notebook и скриптът е това, което вероятно бихте кодирали - Pycharm или Sublime Text или RStudio. Освен това за потребителите на R, скриптът е типът Kernel за RMarkdown — красивият начин за програмно генериране на отчет от R.

За да обобщим типовете ядра:

Скрипт
* Python
* R
* RMarkdown
Бележник
*Python
*R

Kaggle Kernels — Език на ядрото:

Това второ ниво на избор на език на ядрото се случва само след първото ниво на избор на тип на ядрото.

Както в горния GIF на Kaggle ядро от Type Script, езикът на ядрото може да бъде променен, като влезете в Настройки и след това изберете желания език — R / Py / RMarkdown. Същите настройки предоставят и опция да направите споделянето на ядрото публично (което по подразбиране е частно, освен ако не е публично). Частните ядра обикновено се използват, ако работите върху задачата си в университета или се самообучавате, когато не искате да разкривате кода. Частните ядра се използват и от Kagglers, които участват в конкуренция, за да използват изчислителната мощ на Kaggle, но не разкриват своя код/подход.

Ядро на преносим компютър:

Подобно на горния GIF, където е избран тип ядро Скрипт, можете също да изберете Бележник, за да създадете ядро на бележник.

Ядро RMarkdown — (Тип на ядрото: Скрипт › RMarkdown)

RMarkdown използва комбинация от R и Markdown при генериране на аналитични отчети с вградени интерактивни визуализации. Въпреки че това е най-опростеният начин да се обясни какво е RMarkdown, неговите употреби и потенциал растат много по-далеч и отвъд определението.

За щастие Kaggle Kernel Script поддържа Rmarkdown, което означава, че може да помогне за създаването на интерактивна документация и много повече, което не би било възможно в сценарий, базиран на Notebook. Ето „пълноценно интерактивно табло за управление, изградено на Kaggle Kernel“ от „Saba Tavoosi“, което илюстрира потенциала на Kaggle Kernels не само за изграждане на модели за машинно обучение, но и за интерактивно разказване на истории в най-добрата му форма. Вижте този курс, ако се интересувате да научите как да създавате табла за управление с flexdashboard.

Копиране и редактиране (по-рано Forking)

Подобно на опцията Fork в Github, ако искате да вземете съществуващо ядро на Kaggle и да го използвате във вашето собствено пространство — за да модифицирате или да дадете свой собствен щрих — ще трябва да използвате горния десен ъгъл син бутон Copy and Edit. Всъщност, в много състезания по машинно обучение на пистата Kaggle Competitions, много публични ядра с високи резултати обикновено са forks of forks forks, където един Kaggler би подобрил модела, който вече е създаден от друг Kaggler и ги направи достъпни като публично ядро.

Публично/частно ядро

Както видяхме по-горе в друг раздел, настройката за достъп на ядрото на Kaggle може да бъде публична или частна. Публичното ядро (както очевидно подсказва името) е достъпно и видимо за всички (включително Kagglers и Non-Kagglers). Частно ядро е достъпно само за собственика (този, който го е създал) и тези, с които собственикът е споделил ядрото. Публично ядро може да бъде изградено и върху частен набор от данни. Да кажем, че това е състезание за машинно обучение и сте направили инженеринг на функции с някои данни от трети страни и не бихте искали да разкривате данните по време на периода на състезанието. Това е типичен сценарий, при който Kagglers обикновено запазват своя набор от данни частни, но правят ядрото публично, така че другите да могат да видят техния подход и да се учат от него.

Екранната снимка по-горе илюстрира как съществуваща настройка за достъп на ядрото може да бъде променена на частна или публична. Всички новосъздадени ядра са частни по подразбиране (в момента на писане) и собственикът след това ги променя публични, ако е необходимо.

TL;DR — Как да създадете ново ядро на Kaggle

Ако всичко по-горе изглежда твърде тежко за разбиране на пръв поглед, това е разделът, който ще ви помогне да създадете първото си Kaggle Kernel.

стъпки:

Влезте в Kaggle с вашите идентификационни данни
Отидете до всеки публичен набор от данни на Kaggle
Щракнете върхуНово ядро горе вдясно (бутон със син цвят)
Изберете бележник/скрипт, който ви интересува
Ако Python е избраният от вас език, оставете го както е, ако R, след това отидете на Настройки от дясната страна и щракнете, за да разгънете елементите, където можете да видите Python следващия към езика, който можете да щракнете, за да промените на R
Отидете в секцията/панела на редактора (отляво) на екрана и започнете да пишете красивия си код (горният GIF също илюстрира как можете да използвате набора от данни, откъдето сте създали ядрото)
След като кодът ви е завършен, щракнете върху Активиране горе вдясно (бутон със син цвят)
Ако изпълнението на вашето ядро е успешно (без никакви грешки), направете ядрото си публично (или като редактирате Настройки › Споделяне (публично)или като отворите ядрото отново и щракнете върху Достъп бутон в горната част)
На този етап вашето първо ядро на Kaggle трябва да е готово за споделяне с вашите приятели във вашата мрежа!

Вижте това Видео на Kaggle за помощ.

КРАЯТ

За много Kagglers, Competition Track беше тяхното забавно пътуване, но „за мен“, Kaggle Kernels Track беше моето нещо, което ни дава огромния потенциал за завършване на научно пътешествие с пълен набор от данниот Data Подготовка за визуализация на данни — Моделиране на машинно обучение до разказване на истории. Надяваме се, че и на вас ще ви хареса. Успех във вашето пътуване с Kaggle Kernel.

Вижте моите Ядра на Kaggle в моя профил в Kaggle и споделете отзивите си с мен в Моят профил в Linkedin. Видеоклиповете/GIF файловете/екранните снимки, използвани в този урок, са налични в my github.