Как обосновать использование модели прогнозирования с более высоким RMSE (cv=10)

Я работаю над моделью прогнозирования. Чтобы получить наилучшую возможную модель, я использую cross_val_score для сравнения различных моделей с CV = 10 и RMSE, я получаю следующее:

                                       Lasso      SVR        NuSVR  GradientBoostingRegressor   RandomForestRegressor
Modeling Methods(15 fact and FR)    0.748253    0.779394    0.776631    0.796389                  0.792362

Отсюда ясно, что лучшей моделью, основанной на RMSE, является Lasso, но я пытаюсь предсказать невидимые данные с ее помощью, она дает только одно число, например 31,07, для каждого случая. В то время как GradientBoostingRegressor дает лучшие прогнозы из всех моделей.

Теперь мне интересно, как оправдать использование модели GradientBoostingRegressor, если у нее более высокий RMSE?

Мои образцы невидимых данных с прогнозом от Лассо

 Disaster Number_left       county_state  Total Destroyed  pred_TD_actual  \
0          279-17          Camden_MO                8       31.043349   
1          279-17            Cole_MO               13       31.043349   
2          279-17            Dent_MO                3       31.043349

machine-learning scikit-learn cross-validation

Sanjeev Goyal 11.08.2017 источник

comment

Что вы подразумеваете под одним числом, например 31.07? Сколько точек данных у вас есть в невидимых данных? - Miriam Farber 11.08.2017

comment

у меня есть 29 точек данных в невидимых данных, и для каждой точки данных лассо дает 31,07 в качестве прогноза, даже после точной настройки его параметра - Sanjeev Goyal 11.08.2017

comment

Не могли бы вы предоставить образец вашего дада? Кроме того, вы проверили, каковы ненулевые коэффициенты Лассо? - Miriam Farber 11.08.2017

comment

Я добавил невидимые данные и не проверил ненулевые коэффициенты - Sanjeev Goyal 11.08.2017

comment

Я бы предложил проверить их. Если вы получаете одинаковые выходные данные для каждой точки данных, то, возможно, все они (или все, кроме очень немногих) равны 0, а функции, для которых они не равны 0, идентичны. - Miriam Farber 11.08.2017

comment

Да все коэффициенты нулевые, как поступить? - Sanjeev Goyal 11.08.2017

comment

Уменьшите значение альфа. - Miriam Farber 11.08.2017

Ответы (1)

arrow_upward
0
arrow_downward

StratifiedKFold помог мне, т. е. перетасовал данные перед применением перекрестной проверки. Теперь модель с наименьшим количеством баллов cv также дает хорошие прогнозы, как и хотелось.

Sanjeev Goyal 23.08.2017

Как обосновать использование модели прогнозирования с более высоким RMSE (cv=10)

Ответы (1)

Похожие вопросы