Анализ факторов и требований, которые могут повлиять на статус ссуды, и, наконец, определение того, выплатило ли лицо ссуду или было списано ее списание.

В рамках предпринятого проекта были предсказаны требуемые цифры и проанализированы их по заданным параметрам, чтобы прийти к выводу, полностью выплачено лицо или списано. Анализ был включен в Orange и с использованием широкого набора инструментов, чтобы прийти к вышеупомянутому выводу.

Сначала был загружен файл .CSV, затем были выбраны все целевые столбцы, т. Е. СТАТУС КРЕДИТА, а затем был взят виджет ранжирования из столбца данных, поскольку ранжирование помогает определить суть того, что требуется больше всего в конкретном типе данных. Затем первые 11 данных Руководители были отобраны согласно их рангам.

Затем данные были проверены с помощью таблицы данных, и затем было обнаружено, что 8,3% значений из данных отсутствовали. Таким образом, существует необходимость вменять данные, учитывая среднее значение и режим значений, и заполнять недостающие значения в данных (используя функцию вмененного значения).

Задача была выполнена с использованием различных моделей, а затем оценена с помощью Test & Score.

Были использованы две разные модели: -

  1. Сочетание наивного байесовского метода и дерева решений
  2. Случайный лес

- Наивный метод Байеса и дерево использовался, потому что: -

Модель Наивного Байеса может работать как с непрерывными, так и с дискретными данными. Он очень универсален с количеством индикаторов и ориентированных на данные. Это быстро и может использоваться для непрерывного прогнозирования в реальном времени. Он не чувствителен к несущественным функциям.

Дерево решений используется для понимания и прогнозирования как числовых значений, так и проблем с категориальными значениями. Но есть недостаток, который обычно приводит к переобучению данных / информации. Тем не менее, мы можем избежать чрезмерной подгонки, используя подход предварительной обрезки, например, создав дерево с меньшим количеством листьев и ветвей.

Комбинация Наивного Байеса и Дерева решений была использована, потому что Наивный Байесовский метод имеет некоторые плюсы, которых нет у Дерева, и наоборот. Например, Naive Bayes может выполнять классификацию текста и фильтрацию спама. С другой стороны, Tree может распознавать закономерности, последовательность и финансовое признание. Вместе они сильны.

- Модель случайного леса использовалась, потому что: -

Случайный лес - это алгоритм обучения на основе дерева, способный принимать точные решения, поскольку он состоит из множества деревьев решений. Как следует из названия - это лес деревьев. Следовательно, случайный лес требует больше времени на обучение, чем одно дерево решений. Каждая ветвь и лист в дереве решений работает со случайными признаками, чтобы предсказать результат. Затем этот алгоритм объединяет все прогнозы отдельных деревьев решений для генерации окончательного прогноза, а также может иметь дело с отсутствующими значениями.

После теста и оценки использовались показатели путаницы, чтобы увидеть все истинно положительные и ложно отрицательные значения и т. д. И, наконец, для уточнения информации использовалась визуализация распределения.

Заключение

Видно, что итоговые результаты оказались разными. Итак - теперь необходимо взять среднее значение обоих результатов, и тогда можно сказать, что в СТАТУСЕ КРЕДИТА только 5,52% населения (общая численность населения составляет 79,25 тыс. (Поскольку необходимо взять в среднем от общей численности населения.)) попадает под ВЫПЛАТУ и отдых, т.е. 94,48% населения получает ПОЛНОСТЬЮ ПЛАТУ.

И также можно сказать, что СЛУЧАЙНЫЙ ЛЕС - лучшая модель, чем ДЕРЕВО РЕШЕНИЙ и комбинация НАИВНЫЕ ЗАЛИВЫ, потому что она имеет лучшую AUC как: -

  • AUC является масштабно-инвариантным , т. Е., - он измеряет, насколько хорошо прогнозы ранжируются, независимо от их абсолютных значений.
  • AUC также является инвариантом порога классификации, т. Е. - он измеряет качество прогнозов модели независимо от того, какой порог классификации выбран.

Этот набор данных (файл .CSV) взят из Kaggle.

Имя файла: Credit_train

Контакты

Если у вас есть какие-либо вопросы или предложения по поводу моей следующей статьи, оставьте комментарий ниже или напишите мне по адресу [email protected]

Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium.

Свяжитесь со мной через:

LinkedIn

Instagram