Я использовал StratifiedKFold из scikit-learn, но теперь мне нужно следить и за «группами». Есть хорошая функция GroupKFold, но мои данные очень зависят от времени. Так же, как и в справке, т.е. номер недели является индексом группировки. Но каждую неделю следует только в один раз.
Допустим, мне нужно 10 раз. Что мне нужно, так это сначала перетасовать данные, прежде чем я смогу использовать GroupKFold.
Перетасовка в групповом смысле, поэтому целые группы должны перетасовываться друг с другом.
Есть ли способ сделать это с помощью scikit-learn? Мне кажется, что GroupKFold надежен в первую очередь для перетасовки данных.
Если нет возможности сделать это с помощью scikit, может ли кто-нибудь написать какой-нибудь эффективный код? У меня есть большие наборы данных.
матрица, метка, группы в качестве входных данных