Какова мотивация перекрестной проверки предварительной обработки выбора функций?

Я видел несколько статей и примеров выбора функций (обертка и встроенные методы), в которых образцы данных разбивались на обучающие и тестовые наборы.

Я понимаю, почему нам нужно использовать перекрестную проверку (разделить данные на набор для обучения и тестирования) для построения и тестирования оценок моделей (фактическое прогнозирование предлагаемого алгоритма).

Но я не могу понять, что побуждает сделать это при выборе функции?

Нет никаких истинных результатов того, какие функции нам нужно выбрать, так как же это может улучшить процесс выбора функций?

Какая польза?


person Boom    schedule 03.04.2020    source источник


Ответы (1)


Большинство методов выбора функций, таких как модели-оболочки, требуют сравнения производительности модели при использовании различных комбинаций функций.

Перекрестная проверка обеспечивает более надежные средства сравнения производительности при использовании различных подмножеств функций и, следовательно, более надежный процесс выбора функций. Например, если используется перекрестная проверка K-кратности, сравнение будет основано на среднем значении ошибок из разных складок данных, и, следовательно, выбирается подмножество, которое приведет к наименьшей ошибке обобщения.

Кроме того, оптимальные гиперпараметры не обязательно одинаковы для различных комбинаций функций. Перекрестная проверка помогает при настройке и, следовательно, более справедливом сравнении.

Это также информационный ресурс по этой теме.

person Reveille    schedule 03.04.2020