Прикладное машинное обучение: синдицированный револьвер, часть 2

Во второй части мы импортируем наши данные, проведем пояснительный анализ и построим быструю модель. Вы можете найти Часть 1 здесь и Часть 1.5 здесь. Если вы предпочитаете чистый код, можете заглянуть в блокнот на Github или Google Colab.

Давайте начнем с импорта наших данных.

Это не выглядит очень полезным. Оказалось, что в Excel на самом деле есть второй лист, давайте добавим параметр, указывающий, какой лист следует импортировать.

Похоже, это то, что мы ищем, но мы получаем предупреждение об устаревшем ключевом слове. Давайте изменим это на случай, если кому-то понадобится это будущее.

Теперь, когда мы импортировали данные, давайте пощупаем их.

Мы рассмотрим форму, типы объектов и уникальные объекты.

Похоже, нам нужно будет немного очистить данные, чтобы получить данные в презентабельном формате. 6 функций являются плавающими, поэтому мы сможем получить их сводную статистику с помощью description. С поплавками легко работать, так что здесь нет проблем.

У нас осталось 5 функций, которые являются объектами. Для наших целей нам нужно, чтобы эти характеристики были числовыми. Мы можем изменить наши категориальные значения на числа с плавающей запятой для быстрого анализа. В идеале мы бы кодировали эти переменные, используя что-то вроде one-hot encoder, но нам просто нужно быстро взглянуть на данные.

Мы можем использовать сопоставление для замены категориальных значений на числа с плавающей запятой.

Теперь, когда все наши данные числовые, давайте взглянем на некоторые графики.

Сначала мы построим гистограмму функций. Во-вторых, у нас будет график корреляции Пирсона для признака.

В-третьих, мы будем использовать Seaborn, чтобы создать диаграмму рассеяния, показывающую процент приглашений и фиксацию.

Гистограмма

Граф сюжет

Горизонтальная гистограмма с группировкой

Теперь, когда наши данные находятся в хорошем состоянии, мы можем построить несколько моделей для прогнозов. Посмотрим, сможем ли мы достичь 80%, используя модели, предоставленные научно-учебными пособиями. В следующих частях этого блога мы создадим индивидуальную модель и настроим наши параметры, но эта модель будет прямо из коробки.

Теперь, когда мы построили модель, давайте посмотрим, какая из них имеет лучший результат в F1.

XGBoost лидирует с показателем 83%. За несколько минут мы построили модель, которая может удивительно хорошо предсказывать фиксацию или отклонение. Спасибо за чтение, мы продолжим задавать вопросы по данным. Обратите внимание на часть 3, где мы постараемся улучшить нашу модель, добавив специальные параметры.

Пьер