Въведение

Телекомуникационният оператор Interconnect би искал да може да прогнозира отлив на клиенти. Ако се установи, че даден потребител планира да напусне, ще му бъдат предложени промоционални кодове и специални опции за план.

Маркетинговият екип на Interconnect е събрал някои от личните данни на своите клиенти, включително информация за техните планове и договори.

Цели

  1. Боравене с данни за дисбаланс
    — Първо ще изпълним модела без обработка на дисбаланс, след което ще използваме техниката на свръхсемплиране и недостатъчно семплиране, за да видим дали моделът се представя добре при кой сценарий.
  2. Извличане на функции
    — Ще се извърши извличане на функции, за да се получи повече променлива
  3. Модел
    — Ще използваме 3 модела, логистична регресия (за интерпретируемост), произволни гори и градиентно усилване
  4. Важност на характеристиките и модел на чертане
    — Разгледайте коефициентите (теглата), свързани с всяка променлива за прогнозиране. Положителните коефициенти показват, че увеличението на предикторната променлива е свързано с по-голяма вероятност от оттегляне, докато отрицателните коефициенти предполагат обратното.
    — Класирайте предикторните променливи въз основа на тяхната важност в логистичния регресионен модел. Това може да стане, като вземете предвид големината на коефициентите, коефициентите на шансове или други показатели, специфични за вашия анализ. Важни характеристики са тези, които имат силно влияние върху прогнозата.

Наборът от данни

Данните се състоят от 4 табл. За пълния изходен код вижте тази връзка

Проучвателен анализ на данни

Договор на клиента

Разпределение на типа абонамент
- Месец към месец има най-високото съотношение, достигащо 50% от всички данни
- Едногодишно и двугодишно има почти същото съотношение

Разпределение на типа фактуриране без хартия
- Над 4000 клиента, използващи фактуриране без хартия, и почти 3000 клиента, използващи фактуриране без хартия

Разпространение на метода на плащане
- Електронният чек е най-използваният метод за плащане с над 2000 клиента и последван от три други метода, достигащи до около 1500 клиента всеки

Лични данни на клиента

Разпределение по пол
- И мъжете, и жените имат почти еднакво разпределение около 3500

Разпространение на възрастни граждани
- Възрастните граждани са само 16% от всички клиенти

Разпределение на партньори
- И двете категории са почти идентични, около 3500

Разпределение на зависими лица
- Около 70% от клиентите нямат зависими лица

Разпространение на допълнителни услуги

  • Поточно предаване на филми и телевизия са първите 2 най-купувани добавки
  • Техническата поддръжка и онлайн сигурността са най-малко купуваните добавки

Разпространение на потребителите на телефона

  • 53,3% от клиентите, закупили телефонна услуга, предпочитат не-много линии, а 46,7% предпочитат множество линии

Колко клиенти използват и двете услуги?

Моделиране

Преди да се потопим в основния процес на обучение на модели, наложително е да предприемем серия от основни стъпки за оптимизиране на ефективността на нашия модел. Една от основополагащите фази включва извличане на функции, последвано от инженеринг на функции и кулминация в Избор на функции.

Извличане на функции включва процеса на дестилиране на значима информация от необработения набор от данни. Ние се стремим да разкрием присъщите модели и прозрения в рамките на данните, които са от значение за нашата прогнозна задача. Тази начална стъпка ни позволява да трансформираме данните в по-управляемо и информативно представяне.

Инженеринг на функции е последващият етап, в който ние креативно проектираме и конструираме нови функции или модифицираме съществуващи. Тази стъпка се ръководи от познания за домейна и управлявана от данни интуиция, което ни позволява да изработим предсказуеми функции, които улавят същността на поведението на клиентите и двигатели на отлив.

И накрая, Изборът на функции е щателен процес, при който разпознаваме кои функции са от най-голямо значение за нашия предсказуем модел. Това подреждане на функции гарантира, че нашият модел не е обременен от неподходящи или излишни променливи, което му позволява да се съсредоточи върху най-влиятелните фактори при прогнозиране на оттеглянето на клиентите.

Чрез методично преминаване през тези фази, ние полагаме основата за усъвършенстван и ефикасен процес на обучение на модела, избягвайки капаните на ненужната сложност на функциите и удължената продължителност на обучението с ограничени резултати.

Извличане на функции и инженерство

Със създаването на информативни нови функции, следващата стъпка в нашето пътуване е да извършим щателен избор на функции. След като вече изпълнихме основни задачи като One-Hot Encoding (OHE) върху категорични характеристики и мащабиране на числени характеристики, сега сме готови да оптимизираме предсказващата сила на нашия модел.

Избор на функция

Ще включим всички функции, които ›= 0.1 и ‹= -0.1

Иницииране на тръбопровод за машинно обучение

В стремежа към ефективно обучение по модели, приемането на добре структуриран тръбопровод става наложително. Чрез оркестрирането на съгласуван конвейер ние рационализираме процеса, което ни позволява да обучаваме множество модели едновременно.

Модел на влак без повторно вземане на проби

Резюме на модела

Най-добрият оценител е LightGBM (learning_rate=0,5, max_depth=4, min_child_samples=30, n_estimators=150)

Набор от данни за обучение
- Набор за обучение ROC-AUC : 0,96
- Точност на набор за обучение : 0,97

Тестови набор от данни
- Тестов набор ROC-AUC: 0,85
- Тестов комплект Точност: 0,90

Модел със свръхсемплиране

Резюме на модела

Най-добрият оценител е LightGBM (learning_rate=0,5, max_depth=4, min_child_samples=30, n_estimators=150)

Набор от данни за обучение
- Набор за обучение ROC-AUC : 0,97
- Набор за обучение Точност : 0,97

Тестови набор от данни
- Тестов набор ROC-AUC: 0,86
- Тестов комплект Точност: 0,89

Заключение на модела

От обучение на два моделаLightGBM излиза с най-добрия класификатор за този проблем и с най-висок ROC-AUC резултат 0.86 в набор от данни за свръхсемплиране

Логистична регресия за интерпретация на данни

Констатации

  • Клиент с fiber-opt service има голям шанс да се оттегли
  • Клиент с manual payment method има голям шанс да се оттегли
  • Клиент с paperless billing има приличен шанс да се оттегли
  • Senior citizen има малък шанс да отпадне
  • Yearly договорът има голям шанс да задържи клиента
  • Клиент с Online Security и Tech Support добавки има приличен шанс да не се откаже

Препоръка

  • Предложете нова сделка, когато клиентът с годишен договор почти трябва да го накара да остане с услугите
  • Предложете пакетна отстъпка за добавки за онлайн сигурност и техническа поддръжка, защото има приличен шанс да задържите клиента
  • Обърнете внимание на метода на ръчно плащане и безхартиеното фактуриране, защото има прилична вероятност да отпадне

Оценка на модела

Заключение

1. Обучение на модела

  • LGBMClaffier (усилване на градиента)
  • Тест AUC_ROC: 0.86
  • Точност на теста: 0.89
  • Най-добри параметри: learning_rate: 0.5, max_depth: 4, min_child_samples: 30, n_estimators: 150

2. Модел, начертан от модела

  • Клиент с fiber-opt service има голям шанс да се оттегли
  • Клиент с manual payment method има голям шанс да се оттегли
  • Клиент с paperless billing има приличен шанс да се оттегли
  • Senior citizen има малък шанс да отпадне
  • Yearly договорът има голям шанс да задържи клиента
  • Клиент с добавки Online Security и Tech Support има приличен шанс да не се откаже

3. Препоръката

  • Предложете нова сделка, когато клиентът с годишен договор почти трябва да го накара да остане с услугите
  • Предложете пакетна отстъпка за добавки за онлайн сигурност и техническа поддръжка, защото има приличен шанс да задържите клиента
  • Обърнете внимание на метода на ръчно плащане и безхартиеното фактуриране, защото има прилична вероятност да отпадне

Изходен код: https://www.kaggle.com/code/rifqisyahrial/tripleten-final-project?scriptVersionId=143526311