Ако се интересувате от данни и се занимавате с машинно обучение, най-вероятно сте чували за Kaggle
Kaggle е най-известната платформа за данни и състезания за данни и има най-голямата общност от учени по данни. В Kaggle можете да намерите и публикувате набори от данни или да изберете всяко състезание и да се опитате да разрешите проблема.
Kaggle Kernel
Kaggle kernel е облачна платформа за наука за данни и машинно обучение. Той позволява на специалистите по данни да споделят код и да анализират в Python и R.
Можете да получите достъп до:
- 4 процесора
- 16 GB RAM
- 5 GB дисково пространство
- 6 часа непрекъснато време за изпълнение K80 GPU инстанция.
Последните няколко дни имах проблем с връзката с ядрата на Kaggle, където той продължаваше да се рестартира, рестартира отново и отново. След всяко рестартиране трябваше да стартирам ядрото отначало всеки път!
Досадно, а?
Google Colab
Colaboratory е безплатна среда за преносими компютри на Jupyter, която не изисква настройка и работи изцяло в облака.
С Collaboratory можете да пишете и изпълнявате код, да запазвате и споделяте вашите анализи и да имате достъп до мощни изчислителни ресурси, всичко това безплатно от вашия браузър .
Външно имаме още шест часа работа на GPU в Google Colab;
- 12 часа GPU K80 на изпълнение безплатно
Свързване на Colab и стартиране на Kaggle Kernel
Има толкова много полезни статии за това как да настроите Google Colab с Kaggle API, но статията на Kevin Luk е една от лесните за следване „Изтегляне на набори от данни в Google Диск чрез Google Colab“.
Има само няколко допълнителни стъпки, за да настроите Google Drive за състезания на Kaggle.
1. Настройване на Google Drive
Първата стъпка е да създадете папка в Google Drive, като използвате структурата на папките, както е показано на изображението по-долу.
Вече сте готови да преминете към Google Colab и следвайте стъпките за настройка по-долу.
- Монтирайте вашите файлове в Google Drive
Следният код прави монтиране на вашия google диск
#this will prompt you to upload the kaggle.json
Забележка: ще ви трябва оторизация.
Щракнете върху връзката в Collab и копирайте и поставете кода.
- Проверете файловете в Google Colab
Обновете файловете в Google Colab и вашите папки трябва да изглеждат както е показано по-долу.
2. Kaggle API
Отидете в Kaggle, щракнете върху секцията „Моят акаунт“ и създайте нов API Token.
Ще имате файла Kaggle.json.
- Качете файл kaggle.json за сътрудничество
- Настройте .kaggle директория
Сега сте готови да изтеглите наборите от данни за състезанието и ядрата в папката на Google Диск, която създадохме преди.
Но първо проверете дали Kaggle API изпълнява следния код
!kaggle kernels list — user `Your-User-Name` — sort-by dateRun
Трябва да видите вашия списък на ядрото!
- Изтеглете всякакви набори от данни за състезания
Забележка: Преди да направите тази част, трябва да отворите състезанието Kaggle и да приемете правилата на състезанието!
Първо, трябва да променим директорията. Искаме да изтеглим нашия набор от данни във „входа“, който е в папката за състезание.
Проверете вашата директория преди
!pwd
изтеглете наборите от данни
!kaggle competitions download -c ‘name-of-competition’
Забележка: Ако вашият файл е zip файл, можете да го разархивирате със следния код
!unzip -q file[.zip] -d [exdir]
- Инсталирайте нашето ядро
Забележка:Преди да направите тази стъпка, трябва да отидете на състезанията, за да създадете ново ядро и да го ангажирате. (Също така преименувайте вашите ядра, за да улесните работата си)
Променете отново директорията в папката на бележника
Проверете вашата директория
!pwd
Изтеглете ядрото си, важно е да добавите „-m“ за генериране при изтегляне на ядрото.
# user-name/kernel-name you can copy paste from your kernel list !kaggle kernels pull USER-NAME/YOUR-KERNEL-NAME -m
Трябва да видите същия път на папката, както е показано на изображението по-долу
- Отворете ядрото
Отидете в Google Drive и намерете .ipynb файловете, които изтеглихме с API
щракнете с десния бутон върху файла и отворете с Collaboratory
Забележка: Когато отворите бележника и се опитате да стартирате, ще получите грешка „Няма такъв файл или директория: '../input'”
, тъй като основната директория на Collab е / съдържание, така че трябва да промените директорията на новия бележник.
Вече сте готови🎉
След като приключите, можете да изпратите файла към Kaggle.
!kaggle kernels push
Моля, имайте предвид, че за съжаление, когато приключите сесията си в Google Colab, ще трябва да започнете настройката отново. Моля, уведомете ме, ако имате затруднения.
Благодаря.
Кредити
Благодаря на Кевин Лук за страхотната публикация
Препратки
https://github.com/Kaggle/kaggle-api