Итак, в настоящее время мои наборы для обучения и тестирования начинаются с 669 функций, многие из которых являются категориальными и требуют быстрого кодирования.
После однократного кодирования обоих наборов я обнаружил, что обучающий набор имеет дополнительные функции.
Я не совсем уверен, как с этим справиться, но у меня есть три варианта:
- Удалите эти функции из обучающего набора, чтобы оба совпадали
- Добавьте эти функции в набор тестов и получите синтетические данные.
- Прежде чем я обучу свою модель, воспользуйтесь какой-нибудь техникой уменьшения размерности (PCA) и используйте то же количество компонентов для обучения и тестирования.
Любая обратная связь будет очень признательна.