Как обосновать использование модели прогнозирования с более высоким RMSE (cv=10)

Я работаю над моделью прогнозирования. Чтобы получить наилучшую возможную модель, я использую cross_val_score для сравнения различных моделей с CV = 10 и RMSE, я получаю следующее:

                                       Lasso      SVR        NuSVR  GradientBoostingRegressor   RandomForestRegressor
Modeling Methods(15 fact and FR)    0.748253    0.779394    0.776631    0.796389                  0.792362

Отсюда ясно, что лучшей моделью, основанной на RMSE, является Lasso, но я пытаюсь предсказать невидимые данные с ее помощью, она дает только одно число, например 31,07, для каждого случая. В то время как GradientBoostingRegressor дает лучшие прогнозы из всех моделей.

Теперь мне интересно, как оправдать использование модели GradientBoostingRegressor, если у нее более высокий RMSE?

Мои образцы невидимых данных с прогнозом от Лассо

 Disaster Number_left       county_state  Total Destroyed  pred_TD_actual  \
0          279-17          Camden_MO                8       31.043349   
1          279-17            Cole_MO               13       31.043349   
2          279-17            Dent_MO                3       31.043349   

person Sanjeev Goyal    schedule 11.08.2017    source источник
comment
Что вы подразумеваете под одним числом, например 31.07? Сколько точек данных у вас есть в невидимых данных?   -  person Miriam Farber    schedule 11.08.2017
comment
у меня есть 29 точек данных в невидимых данных, и для каждой точки данных лассо дает 31,07 в качестве прогноза, даже после точной настройки его параметра   -  person Sanjeev Goyal    schedule 11.08.2017
comment
Не могли бы вы предоставить образец вашего дада? Кроме того, вы проверили, каковы ненулевые коэффициенты Лассо?   -  person Miriam Farber    schedule 11.08.2017
comment
Я добавил невидимые данные и не проверил ненулевые коэффициенты   -  person Sanjeev Goyal    schedule 11.08.2017
comment
Я бы предложил проверить их. Если вы получаете одинаковые выходные данные для каждой точки данных, то, возможно, все они (или все, кроме очень немногих) равны 0, а функции, для которых они не равны 0, идентичны.   -  person Miriam Farber    schedule 11.08.2017
comment
Да все коэффициенты нулевые, как поступить?   -  person Sanjeev Goyal    schedule 11.08.2017
comment
Уменьшите значение альфа.   -  person Miriam Farber    schedule 11.08.2017


Ответы (1)


StratifiedKFold помог мне, т. е. перетасовал данные перед применением перекрестной проверки. Теперь модель с наименьшим количеством баллов cv также дает хорошие прогнозы, как и хотелось.

person Sanjeev Goyal    schedule 23.08.2017