Прогноза с помощта на Orange (.ows) на Loan Status.

Анализиране на факторите и реквизитите, които могат да повлияят на състоянието на заема и накрая да се класифицира дали лицето е платило заема или е таксуван.

Предприетият проект прогнозира необходимите цифри и ги анализира по зададените параметри, за да стигне до извода дали лицето е изплатило изцяло заема или е заплатен. Анализът беше активиран на Orange и с помощта на голямо разнообразие от инструменти, за да се стигне до гореспоменатото заключение.

Първо бе качен .CSV файл, след това всички целеви колони, т.е. СЪСТОЯНИЕ НА ЗАЕМА бяха избрани и след това Приспособлението за класиране от колоната с данни беше взето,тъй като класирането помага да се даде същността на това, което се изисква най-много в определен тип данни. След това първите 11 данни Бяха избрани главите според техните рангове.

След това данните бяха проверени с помощта на таблица с данни и след това беше наблюдавано, че 8,3% от стойностите от данните липсват. Така че има нужда да се импутират данните, като се вземе предвид средната стойност и режимът на стойностите и да се попълнят липсващите стойности в данните (използвайки функция impute)

Задачата беше изпълнена с помощта на различни модели и след това оценена с помощта на Test & Score.

Използваните два различни модела са: -

Комбинация от Naive Bayes и дърво на решенията
Произволна гора

- Naive Bayes & Tree бяха използвани, защото: -

МоделътNaive Bayes може да работи както с непрекъснати, така и с дискретни данни. Той е много гъвкав с броя на индикаторите и фокусите върху данните. Той е бърз и може да се използва за непрекъснати прогнози в реално време. Не е чувствителен към неподходящи характеристики.

Дървото на решенията се използва за разбиране и прогнозиране както на числови стойности, така и на проблеми с категорични стойности. Но има недостатък, че обикновено води до пренастройване на данните/информацията. И все пак можем да избегнем излишните фитинги, като използваме подхода за предварително подрязване, например, създавайки дърво с по-малко листа и клони.

Използвана е комбинацията от Naive Bayes & Decision Tree, защото Naive Bayes има някои плюсове, които Tree няма, и обратното. Например, Naive Bayes може да прави текстова класификация и филтриране на спам. От друга страна, Tree може да направи модела, последователността и финансовото признание. Заедно те са силни.

- Моделът Random Forest беше използван, защото: -

Случайна гора е алгоритъм за обучение, базиран на дърво със силата да формира точни решения, тъй като има много дървета на решения заедно. Както казва името му - това е гора от дървета. Следователно Random Forest отнема повече време за обучение, отколкото едно дърво на решения. Всеки клон и лист в дървото на решенията работи върху произволните характеристики, за да предвиди резултата. След това този алгоритъм комбинира всички прогнози на отделните дървета на решенията, за да генерира крайната прогноза и може също така да се справи с липсващите стойности.

След тестване и оценка, показателите за объркване бяха използвани, за да се видят всички истински положителни и фалшиво отрицателни стойности и т.н. И накрая, визуализацията на разпределението беше използвана за потвърждаване на информацията.

Заключение

Вижда се, че крайните резултати се оказаха различни. И така — сега е необходимо да се вземе средна стойност на двата резултата и тогава може да се каже, че в СТАТУС НА ЗАЕМ само 5,52% от населението (Общото население е 79,25 000 (Тъй като има нужда да се вземе средно за цялото население също.)) попада под ТАКСУВАНЕ и почивка, т.е. 94,48% от населението попада под НАПЪЛНО ПЛАТЕНО.

Може също така да се каже, че СЛУЧАЙНАТА ГОРА е по-добър модел от ДЪРВОТО НА РЕШЕНИЯТА и комбинацията NAIVE BAYES, защото има по-добра AUC като: -

AUC е мащабно инвариантен — т.е. — измерва колко добре са класирани прогнозите, независимо от техните абсолютни стойности.
AUC също еинвариант на класификационния праг, т.е.- той измерва качеството на прогнозите на модела, независимо от избрания класификационен праг.

Този набор от данни (.CSV файл) е взет от Kaggle.

Име на файла: Credit_train

Контакти

В случай, че имате въпроси или предложения относно това, за какво трябва да бъде следващата ми статия, моля, оставете коментар по-долу или ми пишете на [email protected]

Ако искате да сте в течение с най-новите ми статии и проекти, последвайте ме в Medium.

Свържете се с мен чрез:

LinkedIn

Instagram

Прогноза с помощта на Orange (.ows) на Loan Status.

Анализиране на факторите и реквизитите, които могат да повлияят на състоянието на заема и накрая да се класифицира дали лицето е платило заема или е таксуван.

Контакти

Подобни въпроси