У меня есть данные, на которых я хочу протестировать классификаторы. Эти данные имеют множество атрибутов и целевой класс, который является бинарным true/false. Кроме того, я знаю, что данные поступают из 32 источников с номерами 1-32. Эта информация находится в файле arff.
Итак, у меня есть файл arff:
@attribute <MANY ATTRIBUTES>
@attribute <MANY ATTRIBUTES>
@attribute class {True,False}
@attribute source {1,2,3,4,5,6,7,8,9,...,30,31,32}
Например, в проводнике weka под классификатором я могу выбрать перекрестную проверку в 4 раза. Но тогда weka упорядочит эти экземпляры случайным образом в 4 корзины. я хочу, чтобы weka использовала 24 источника в качестве поезда и 8 в качестве теста. Таким образом, каждый источник полностью находится либо в тесте, либо в обучении, но не в обоих.
Это как-то возможно с бортовыми методами?