Kaggle все още е трудно да се победи, за да стане по-технически специалист по данни

Добре, тръгваме, ще подам главата си над парапета. Има дебат, който набира скорост от известно време, реакция срещу Kaggle от онези, които възкликват по няколко точки защо Kaggle не си струва да се прави, че може би не трябва да ценим толкова високо победителите и този опит, натрупан в състезания няма да се пренесе в реалния живот. Някои от по-честите критики включват:

  • Можете да се справите добре в Kaggle само ако имате достъп до скъп хардуер
  • Kaggle предпочита преоборудването и намирането на течове
  • Kaggle не е представител на реалната работа в науката за данни

Тези точки имат известна основа в истината; те са правилни понякога, но вярвам, че в крайна сметка са или непропорционално критични, или пропускат смисъла на Kaggle.

Някои състезания бяха спечелени от тези, които тренираха на GPU клъстери в продължение на дни, и видяхме течове и хакове, които оказват влияние върху легитимността на крайните резултати. Въпреки това, това винаги са били по-скоро изключения, отколкото общият опит на много Kagglers и са станали по-редки с напредването на платформата.

Много състезания бяха спечелени от хора със скромни настройки и Kaggle сега е домакин на много състезания, които изискват използването на преносими компютри Kaggle с определени ограничения като време за тренировка, изравняване на игралното поле за конкурентите. В допълнение, течове и хакове често се извикват от общността, което позволява на организаторите да правят модификации, за да се справят с тези проблеми.

Въпросът, че Kaggle не отразява работата в областта на науката за данни обаче, е това, което искам да обсъдя допълнително и да обясня защо смятам, че критиките пропускат смисъла на Kaggle.

За да направим това, ще разделим тази точка на две теми:

1. Kaggle не представя пълния жизнен цикъл на проект за наука за данни

Отново има известна истина в този аргумент. Състезанията на Kaggle всъщност нямат нищо общо с няколко аспекта на проект за наука за данни.

Провеждането на състезание на Kaggle няма да ви научи как да анализирате бизнес, за да видите къде даден модел може да увеличи приходите, няма да ви даде практика как да се справяте със заинтересованите страни или как да идентифицирате и събирате подходящите данни. Освен това няма да ви помогне да развиете най-добрите практики за внедряване на модели в производството. Всички важни и понякога подценени части от един проект.

Това обаче всъщност не е целта на Kaggle и повечето Kagglers, не мисля, биха спорили, че да се справяте добре на платформата означава, че внезапно имате всички необходими умения, за да покриете всеки аспект от работата в бизнеса или научните изследвания.

Това, което Kaggle предоставя, е възможността за решаване на реални проблеми с машинно обучение, които изискват детайлна работа чрез проучвателен анализ на данни, инженеринг на функции, обучение и избор на модели, групиране и настройка на параметри.

Той ще ви даде възможност да се запознаете с проблеми в широк спектър от области, от класически проблеми, включващи таблични данни от финанси, реклама и търговия на дребно, до намиране на иновативни решения на проблеми, включващи текстови, изображения и аудио данни. Освен това общността е много прозрачна с код и анализи, които често се споделят по време на състезания, което дава възможност да се учат от работата на учени от световна класа за данни.

Може ли работата в областта на науката за данни или по лични проекти да ви даде същото ниво на експозиция?

Състезанията на Kaggle също засилват значението на солидна стратегия за кръстосано валидиране. Всеки, който е бил изгорен от разклащане в класацията, завинаги ще разбере колко е важно никога да не предприема тази стъпка с лека ръка.

Също така бих казал, че намирането и извикването на течове и хакове често изисква задълбочено техническо разбиране и анализ, което надхвърля обикновения учен по данни. Колко ценен за бизнеса е някой, който има вниманието към детайлите и уменията за изследване на данни, за да може да открие пропуски в данните, които повечето пропускат?

2. За да се справите добре с Kaggle, вие създавате решения, които са излишни за реалния свят

Още веднъж, този аргумент има известна основа в истината. Всяко от първите 20% от решенията в някои състезания вероятно би било достатъчно добро, за да генерира стойността, от която много фирми се нуждаят. В реалния свят допълнителното време, прекарано в настройка на модел, може да бъде по-добре изразходвано за други части от процеса на наука за данни.

Като начало, бих оспорил, че този аргумент предполага, че всички приложения на науката за данни дават една и съща стойност от всички домейни. Реалността е, че това, което може да намалява възвръщаемостта от получаването на това допълнително ниво на точност от модели в търговията на дребно или производството, може да бъде изключително ценно за моделите във финансите или медицината.

В крайна сметка, аз вярвам, че Kaggle е за разширяване на обвивката на науката за данни както по отношение на възможността да пробие предишни ограничения, така и да приложи тези методи към проблеми или домейни за първи път. Състезанията за класификация на изображения, хоствани на Kaggle например, изиграха огромна роля в еволюцията на тази област и виждаме, че състезателите сега решават толкова различни проблеми, като оценяване на действията на играчите на NFL до откриване на дълбоки фалшиви видеоклипове.

Когато използваме наука за данни в търговска среда, ние очевидно искаме да бъдем ефективни и да балансираме компромиса между времето за разработка и върнатата стойност, но също така трябва да се опитаме да тласнем нещата напред и да бъдем иновативни, така че следващото поколение инструменти и решения да надхвърлят това, което ние в момента имат днес. В технологиите това, което е авангардно днес, обикновено е статуквото на утрешния ден и Kaggle може да играе значителна роля в прокарването на това, което може да се направи с науката за данни.

Заключение

Kaggle не е перфектен. Има много важни и често подценявани умения за наука за данни, с които няма да се докоснете, докато участвате в състезания, а решенията на Kaggle понякога ще бъдат пресилени. Вярвам обаче, че това пропуска смисъла на това, което прави Kaggle толкова страхотна платформа.

Това, което научавате от състезанията на Kaggle, е само част от пъзела на науката за данните и макар че не е задължително да сте завършен учен за данни, след като се справите добре в платформата, вероятно ще сте развили компетентност над средната в много аспекти на машинното обучение и данните анализ.

Kaggle, по мое мнение, все още е много трудно да се победи за развиване на този вид технически умения.