У меня есть набор данных из 550 тыс. Элементов, которые я разделил на 500 тыс. Для обучения и 50 тыс. Для тестирования. На этапе обучения необходимо установить «лучшую» комбинацию значений параметров каждого алгоритма. Вместо того, чтобы использовать для этого все 500k, я был бы счастлив использовать подмножество, НО, когда дело доходит до обучения окончательной модели, с «лучшей» комбинацией, я бы хотел использовать полные 500k. В псевдокоде задача выглядит так:
subset the 500k training data to 50k
for each combination of model parameters (3, 6, or 9)
for each repeat (3)
for each fold (10)
fit the model on 50k training data using the 9 folds
evaluate performance on the remaining fold
establish the best combination of parameters
fit to all 500k using best combination of parameters
Для этого мне нужно сказать карету, что перед оптимизацией он должен подмножество данных, но для окончательной подгонки использовать все данные.
Я могу сделать это: (1) разбивая данные на подмножества; (2) выполнять обычные этапы поезда; (3) остановить окончательную посадку (не требуется); (4) установить «лучшую» комбинацию (это на выходе поезда); (5) запустить поезд на полных 500 км без оптимизации параметров.
Это немного неопрятно, и я не знаю, как остановить обучение курсора курсора окончательной модели, которую я никогда не буду использовать.