от sklearn.ensemble import RandomForestClassifier, Как работи Random Forest Classification?

Преди да се потопим дълбоко в Случайната класификация на горите, първо анализираме какво е дърво на решенията? и как работи алгоритъмът?

Предпоставка: Какво представлява класификацията на дървото на решенията?

Класификацията на произволната гора е нелинеен модел за машинно обучение. Точно както класификацията на дървото на решенията ни помага да правим прогнози за конкретно разделяне, но в класификацията на дървото на решенията само едно дърво помага да направим прогноза. В произволна гора „N“ брой дървета правят прогнози и средната стойност на всички резултати на дървото помага да се дадат точни резултати.

Осредняването помага да се подобри точността на прогнозиране и да се контролира пренапасването.

Случайната класификация на горите е вид техника за обучение в ансамбъл, при която вземаме средна стойност от всички резултати.

Стъпки за следване на случайната класификация на гората:

Стъпка 1. Изберете произволни точки с данни „K“ от набора за обучение.

Стъпка 2. Изградете дървото на решенията, свързано с тези K точки от данни.

Стъпка 3. Изберете броя на дърветата „N дърво“, които искате да изградите, и повторете стъпки 1 и 2.

Стъпка 4. За нови точки от данни накарайте всяко едно от вашите „N дърво“ дървета да прогнозира стойността на Y до за въпросната точка от данни и присвоете новата точка от данни към категорията, която печели мнозинството гласуване.

Сега ще направим частта за изпълнение. Първо импортираме нашия набор от данни за хора, които искат да купят конкретен продукт.

Трябва да следваме стъпките за изграждане на алгоритъм за класификация на произволни гори.

Стъпка 1. Импортирайте библиотеките

Стъпка 2. Импортиране на набора от данни

Стъпка 3. Разделете данните в матрица от функции (X) (така че вземаме под внимание „Възраст“ и „Заплата“, за да направим прогноза) и зависимата променлива (y).

Стъпка 4. Разделяне на матрицата от функции (X) и зависима променлива (y) в набор за обучение и тест.

Стъпки 5. Сега правим мащабиране на функции за колони „Възраст“ и „Заплата“.

Стъпка 6. Поставяне на линеен модел за тестване и набор от данни за обучение.

Стъпка 7. Прогнозиране на резултата от теста.

Стъпка 8. Създаване на матрицата на объркването за извършване на прогнози.

Стъпка 8. Визуализация на набор от данни.