Моя задача — понять, какие функции (расположенные в столбцах набора данных X) лучше всего предсказывают целевую переменную — y. Я решил использовать feature_importances_ в RandomForestClassifier. RandomForestClassifier имеет лучший результат (aucroc), когда max_depth=10 и n_estimators = 50. Правильно ли использовать feature_importances_ с лучшими параметрами или параметры по умолчанию? Почему? Как работает feature_importances_?
Например, есть модели с лучшими и дефолтными параметрами.
1)
model = RandomForestClassifier(max_depth=10,n_estimators = 50)
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])
2)
model = RandomForestClassifier()
model.fit(X, y)
feature_imp = pd.DataFrame(model.feature_importances_, index=X.columns, columns=["importance"])
feature_importances_
просто оценит важность каждого из ваших столбцов. Это все. Кроме того, если вы просто погуглите документацию scikits-learn, вы найдете здесь демонстрация того, как вы можете читатьfeature_importances_
. - person Imanol Luengo   schedule 31.08.2016