Приложно машинно обучение: Синдикираният револвер, част 2

В част 2 ще импортираме нашите данни, ще направим обяснителен анализ и ще изградим бърз модел. Можете да намерите Част 1 тук и Част 1.5 тук. Ако предпочитате чист код, можете да разгледате бележника в Github или Google Colab.

Нека започнем с импортирането на нашите данни.

Това не изглежда много полезно. Оказва се, че excel всъщност има втори лист, нека добавим параметър към конкретния лист, който трябва да бъде импортиран.

Това изглежда като това, което търсим, но получаваме предупреждение за остаряла ключова дума. Нека променим това, в случай че някой трябва да използва това бъдеще.

Сега, след като импортирахме нашите данни, нека да ги усетим.

Ще разгледаме формата, типовете обекти и уникалните обекти.

Изглежда, че ще трябва да направим известно почистване, за да получим данните в представителен формат. 6 функции са плаващи, така че ще можем да получим техните обобщени статистически данни с описание. С поплавъците се работи лесно, така че тук няма проблем.

Остават ни 5 функции, които са обекти. За нашите цели е необходимо тези характеристики да бъдат числени. Можем да променим нашите категориални стойности на плаващи за бърз анализ. В идеалния случай бихме кодирали тези променливи, като използваме нещо като еднократен енкодер, но ние просто искаме бърз поглед върху данните.

Можем да използваме картографиране, за да заменим категориалните стойности с плаващи числа.

Сега, когато всички наши данни са числени, нека да разгледаме някои диаграми.

Първо ще начертаем хистограма на функциите. Второ, ще имаме графика на корелацията на Pearson на функцията.

Трето, ще използваме Seaborn, за да създадем диаграма на разпръскване, показваща процента на поканените спрямо ангажираността.

Хистограма

Граф парцел

Групиране по хоризонтална лентова диаграма

Сега, когато данните ни са в добро състояние, можем да изградим някои модели, за да правим прогнози. Нека видим дали можем да достигнем 80%, като използваме модели, предоставени от sci-kit learn. В бъдещите части на този блог ще изградим персонализиран модел и ще настроим фино нашите параметри, но този модел ще бъде направо от кутията.

Сега, след като изградихме модела, нека ги начертаем, за да видим кой има най-добър F1 резултат

XGBoost води групата с 83%. За няколко минути изградихме модел, който може да предвиди ангажиране или отказ изненадващо добре. Благодаря за четенето, ще продължим да задаваме въпроси относно данните. Очаквайте част 3, където ще подобрим нашия модел чрез добавяне на персонализирани параметри.

Пиер