Feature_importances в scikit узнайте, как выбрать правильные параметры?

Моя задача — понять, какие функции (расположенные в столбцах набора данных X) лучше всего предсказывают целевую переменную — y. Я решил использовать feature_importances_ в RandomForestClassifier. RandomForestClassifier имеет лучший результат (aucroc), когда max_depth=10 и n_estimators = 50. Правильно ли использовать feature_importances_ с лучшими параметрами или параметры по умолчанию? Почему? Как работает feature_importances_?

Например, есть модели с лучшими и дефолтными параметрами.

model = RandomForestClassifier(max_depth=10,n_estimators = 50)
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])

model = RandomForestClassifier()
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])

scikit-learn random-forest feature-selection

IvanGeraskin 29.08.2016 источник

comment

вы не используете важность функций. Это оценка того, насколько информативна каждая функция для ваших прогнозов. - cel 29.08.2016

comment

Как сказал @cel, feature_importances_ просто оценит важность каждого из ваших столбцов. Это все. Кроме того, если вы просто погуглите документацию scikits-learn, вы найдете здесь демонстрация того, как вы можете читать feature_importances_. - Imanol Luengo 31.08.2016

Ответы (1)

arrow_upward
-1
arrow_downward

Я думаю, вы должны использовать feature_importances_ с лучшими параметрами, это модель, которую вы собираетесь использовать. В параметре по умолчанию нет ничего особенного, что заслуживает особого отношения. Что касается того, как работает feature_importances_, вы можете сослаться на ответ авторов scikit-learn здесь Как определяются feature_importances в RandomForestClassifier?

user108372 29.08.2016

Feature_importances в scikit узнайте, как выбрать правильные параметры?

Ответы (1)

Похожие вопросы