Анализ факторов и требований, которые могут повлиять на статус ссуды, и, наконец, определение того, выплатило ли лицо ссуду или было списано ее списание.
В рамках предпринятого проекта были предсказаны требуемые цифры и проанализированы их по заданным параметрам, чтобы прийти к выводу, полностью выплачено лицо или списано. Анализ был включен в Orange и с использованием широкого набора инструментов, чтобы прийти к вышеупомянутому выводу.
Сначала был загружен файл .CSV, затем были выбраны все целевые столбцы, т. Е. СТАТУС КРЕДИТА, а затем был взят виджет ранжирования из столбца данных, поскольку ранжирование помогает определить суть того, что требуется больше всего в конкретном типе данных. Затем первые 11 данных Руководители были отобраны согласно их рангам.
Затем данные были проверены с помощью таблицы данных, и затем было обнаружено, что 8,3% значений из данных отсутствовали. Таким образом, существует необходимость вменять данные, учитывая среднее значение и режим значений, и заполнять недостающие значения в данных (используя функцию вмененного значения).
Задача была выполнена с использованием различных моделей, а затем оценена с помощью Test & Score.
Были использованы две разные модели: -
- Сочетание наивного байесовского метода и дерева решений
- Случайный лес
- Наивный метод Байеса и дерево использовался, потому что: -
Модель Наивного Байеса может работать как с непрерывными, так и с дискретными данными. Он очень универсален с количеством индикаторов и ориентированных на данные. Это быстро и может использоваться для непрерывного прогнозирования в реальном времени. Он не чувствителен к несущественным функциям.
Дерево решений используется для понимания и прогнозирования как числовых значений, так и проблем с категориальными значениями. Но есть недостаток, который обычно приводит к переобучению данных / информации. Тем не менее, мы можем избежать чрезмерной подгонки, используя подход предварительной обрезки, например, создав дерево с меньшим количеством листьев и ветвей.
Комбинация Наивного Байеса и Дерева решений была использована, потому что Наивный Байесовский метод имеет некоторые плюсы, которых нет у Дерева, и наоборот. Например, Naive Bayes может выполнять классификацию текста и фильтрацию спама. С другой стороны, Tree может распознавать закономерности, последовательность и финансовое признание. Вместе они сильны.
- Модель случайного леса использовалась, потому что: -
Случайный лес - это алгоритм обучения на основе дерева, способный принимать точные решения, поскольку он состоит из множества деревьев решений. Как следует из названия - это лес деревьев. Следовательно, случайный лес требует больше времени на обучение, чем одно дерево решений. Каждая ветвь и лист в дереве решений работает со случайными признаками, чтобы предсказать результат. Затем этот алгоритм объединяет все прогнозы отдельных деревьев решений для генерации окончательного прогноза, а также может иметь дело с отсутствующими значениями.
После теста и оценки использовались показатели путаницы, чтобы увидеть все истинно положительные и ложно отрицательные значения и т. д. И, наконец, для уточнения информации использовалась визуализация распределения.
Заключение
Видно, что итоговые результаты оказались разными. Итак - теперь необходимо взять среднее значение обоих результатов, и тогда можно сказать, что в СТАТУСЕ КРЕДИТА только 5,52% населения (общая численность населения составляет 79,25 тыс. (Поскольку необходимо взять в среднем от общей численности населения.)) попадает под ВЫПЛАТУ и отдых, т.е. 94,48% населения получает ПОЛНОСТЬЮ ПЛАТУ.
И также можно сказать, что СЛУЧАЙНЫЙ ЛЕС - лучшая модель, чем ДЕРЕВО РЕШЕНИЙ и комбинация НАИВНЫЕ ЗАЛИВЫ, потому что она имеет лучшую AUC как: -
- AUC является масштабно-инвариантным , т. Е., - он измеряет, насколько хорошо прогнозы ранжируются, независимо от их абсолютных значений.
- AUC также является инвариантом порога классификации, т. Е. - он измеряет качество прогнозов модели независимо от того, какой порог классификации выбран.
Этот набор данных (файл .CSV) взят из Kaggle.
Имя файла: Credit_train
Контакты
Если у вас есть какие-либо вопросы или предложения по поводу моей следующей статьи, оставьте комментарий ниже или напишите мне по адресу [email protected]
Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium.
Свяжитесь со мной через: