Weka — перекрестная проверка на основе номинальных значений

У меня есть данные, на которых я хочу протестировать классификаторы. Эти данные имеют множество атрибутов и целевой класс, который является бинарным true/false. Кроме того, я знаю, что данные поступают из 32 источников с номерами 1-32. Эта информация находится в файле arff.

Итак, у меня есть файл arff:

@attribute <MANY ATTRIBUTES>
@attribute <MANY ATTRIBUTES>
@attribute class {True,False}
@attribute source {1,2,3,4,5,6,7,8,9,...,30,31,32}

Например, в проводнике weka под классификатором я могу выбрать перекрестную проверку в 4 раза. Но тогда weka упорядочит эти экземпляры случайным образом в 4 корзины. я хочу, чтобы weka использовала 24 источника в качестве поезда и 8 в качестве теста. Таким образом, каждый источник полностью находится либо в тесте, либо в обучении, но не в обоих.

Это как-то возможно с бортовыми методами?


person rom    schedule 11.12.2017    source источник
comment
Мой ответ на этот вопрос может быть полезен: перекрестная проверка в weka"> stackoverflow.com/questions/47683638/   -  person zbicyclist    schedule 12.12.2017
comment
Поскольку ist поддерживает только сохранение порядка, это поможет (возможно) только в том случае, если на источник (в моем случае) будет точно такое же количество экземпляров. Это не так.   -  person rom    schedule 13.12.2017


Ответы (1)


Если вы не хотите использовать 4-кратную перекрестную проверку, а хотите использовать только 24 в качестве обучения и 8 в качестве теста, вы можете разделить файл на 2 (24 в одном, 8 в другом). Загрузите файл 24 в Preprocess. На вкладке «Классификатор» вместо перекрестной проверки щелкните переключатель рядом с «Предоставленный набор тестов», а затем дайте ему имя файла 8 файлов.

person zbicyclist    schedule 14.12.2017
comment
я знаю о возможности дублирования набора и удаления каждого подмножества. это можно сделать даже с помощью скрипта, но это не то, что хорошо масштабируется, если повторяется. весь смысл кроссовера в том, что вы делаете это более одного раза и результат автоматически усредняется. - person rom; 14.12.2017