Я работаю над моделью прогнозирования. Чтобы получить наилучшую возможную модель, я использую cross_val_score для сравнения различных моделей с CV = 10 и RMSE, я получаю следующее:
Lasso SVR NuSVR GradientBoostingRegressor RandomForestRegressor
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389 0.792362
Отсюда ясно, что лучшей моделью, основанной на RMSE, является Lasso, но я пытаюсь предсказать невидимые данные с ее помощью, она дает только одно число, например 31,07, для каждого случая. В то время как GradientBoostingRegressor дает лучшие прогнозы из всех моделей.
Теперь мне интересно, как оправдать использование модели GradientBoostingRegressor, если у нее более высокий RMSE?
Мои образцы невидимых данных с прогнозом от Лассо
Disaster Number_left county_state Total Destroyed pred_TD_actual \
0 279-17 Camden_MO 8 31.043349
1 279-17 Cole_MO 13 31.043349
2 279-17 Dent_MO 3 31.043349