Так что я немного запутался.
На данный момент у меня есть набор данных примерно из 800 экземпляров. Я разделил его на набор для обучения и проверки, потому что отсутствовали значения, поэтому я использовал SimpleImputer из sklearn и fit_transform-ed для обучающего набора и преобразовал набор для тестирования. Я сделал это, потому что, если я хочу спрогнозировать новые экземпляры, если есть пропущенные значения, мне нужно будет вменять это так же, как я вменял набор тестов.
Теперь я хочу использовать перекрестную проверку для обучения и оценки моделей, но это потребует использования всего набора данных и разделения его на разные наборы для обучения и тестирования, поэтому я беспокоюсь об утечке из обучающего набора из-за того, что вмененные значения будут подогнан?