Ако се интересувате от данни и се занимавате с машинно обучение, най-вероятно сте чували за Kaggle

Kaggle е най-известната платформа за данни и състезания за данни и има най-голямата общност от учени по данни. В Kaggle можете да намерите и публикувате набори от данни или да изберете всяко състезание и да се опитате да разрешите проблема.

Kaggle Kernel

Kaggle kernel е облачна платформа за наука за данни и машинно обучение. Той позволява на специалистите по данни да споделят код и да анализират в Python и R.

Можете да получите достъп до:

  • 4 процесора
  • 16 GB RAM
  • 5 GB дисково пространство
  • 6 часа непрекъснато време за изпълнение K80 GPU инстанция.

Последните няколко дни имах проблем с връзката с ядрата на Kaggle, където той продължаваше да се рестартира, рестартира отново и отново. След всяко рестартиране трябваше да стартирам ядрото отначало всеки път!

Досадно, а?

Google Colab

Colaboratory е безплатна среда за преносими компютри на Jupyter, която не изисква настройка и работи изцяло в облака.
С Collaboratory можете да пишете и изпълнявате код, да запазвате и споделяте вашите анализи и да имате достъп до мощни изчислителни ресурси, всичко това безплатно от вашия браузър .

Външно имаме още шест часа работа на GPU в Google Colab;

  • 12 часа GPU K80 на изпълнение безплатно

Свързване на Colab и стартиране на Kaggle Kernel

Има толкова много полезни статии за това как да настроите Google Colab с Kaggle API, но статията на Kevin Luk е една от лесните за следване „Изтегляне на набори от данни в Google Диск чрез Google Colab“.

Има само няколко допълнителни стъпки, за да настроите Google Drive за състезания на Kaggle.

1. Настройване на Google Drive

Първата стъпка е да създадете папка в Google Drive, като използвате структурата на папките, както е показано на изображението по-долу.

Вече сте готови да преминете към Google Colab и следвайте стъпките за настройка по-долу.

  • Монтирайте вашите файлове в Google Drive
    Следният код прави монтиране на вашия google диск
#this will prompt you to upload the kaggle.json

Забележка: ще ви трябва оторизация.
Щракнете върху връзката в Collab и копирайте и поставете кода.

  • Проверете файловете в Google Colab
    Обновете файловете в Google Colab и вашите папки трябва да изглеждат както е показано по-долу.

2. Kaggle API

Отидете в Kaggle, щракнете върху секцията „Моят акаунт“ и създайте нов API Token.

Ще имате файла Kaggle.json.

  • Качете файл kaggle.json за сътрудничество
  • Настройте .kaggle директория

Сега сте готови да изтеглите наборите от данни за състезанието и ядрата в папката на Google Диск, която създадохме преди.

Но първо проверете дали Kaggle API изпълнява следния код

!kaggle kernels list — user `Your-User-Name` — sort-by dateRun

Трябва да видите вашия списък на ядрото!

  • Изтеглете всякакви набори от данни за състезания

Забележка: Преди да направите тази част, трябва да отворите състезанието Kaggle и да приемете правилата на състезанието!

Първо, трябва да променим директорията. Искаме да изтеглим нашия набор от данни във „входа“, който е в папката за състезание.

Проверете вашата директория преди

!pwd

изтеглете наборите от данни

!kaggle competitions download -c ‘name-of-competition’

Забележка: Ако вашият файл е zip файл, можете да го разархивирате със следния код

!unzip -q file[.zip] -d [exdir]
  • Инсталирайте нашето ядро

Забележка:Преди да направите тази стъпка, трябва да отидете на състезанията, за да създадете ново ядро ​​и да го ангажирате. (Също така преименувайте вашите ядра, за да улесните работата си)

Променете отново директорията в папката на бележника

Проверете вашата директория

!pwd

Изтеглете ядрото си, важно е да добавите „-m“ за генериране при изтегляне на ядрото.

# user-name/kernel-name you can copy paste from your kernel list
!kaggle kernels pull USER-NAME/YOUR-KERNEL-NAME -m

Трябва да видите същия път на папката, както е показано на изображението по-долу

  • Отворете ядрото

Отидете в Google Drive и намерете .ipynb файловете, които изтеглихме с API
щракнете с десния бутон върху файла и отворете с Collaboratory

Забележка: Когато отворите бележника и се опитате да стартирате, ще получите грешка „Няма такъв файл или директория: '../input'”
, тъй като основната директория на Collab е / съдържание, така че трябва да промените директорията на новия бележник.

Вече сте готови🎉

След като приключите, можете да изпратите файла към Kaggle.

!kaggle kernels push

Моля, имайте предвид, че за съжаление, когато приключите сесията си в Google Colab, ще трябва да започнете настройката отново. Моля, уведомете ме, ако имате затруднения.

Благодаря.

Кредити

Благодаря на Кевин Лук за страхотната публикация

Препратки

https://github.com/Kaggle/kaggle-api