Weka — перекрестная проверка на основе номинальных значений

У меня есть данные, на которых я хочу протестировать классификаторы. Эти данные имеют множество атрибутов и целевой класс, который является бинарным true/false. Кроме того, я знаю, что данные поступают из 32 источников с номерами 1-32. Эта информация находится в файле arff.

Итак, у меня есть файл arff:

@attribute <MANY ATTRIBUTES>
@attribute <MANY ATTRIBUTES>
@attribute class {True,False}
@attribute source {1,2,3,4,5,6,7,8,9,...,30,31,32}

Например, в проводнике weka под классификатором я могу выбрать перекрестную проверку в 4 раза. Но тогда weka упорядочит эти экземпляры случайным образом в 4 корзины. я хочу, чтобы weka использовала 24 источника в качестве поезда и 8 в качестве теста. Таким образом, каждый источник полностью находится либо в тесте, либо в обучении, но не в обоих.

Это как-то возможно с бортовыми методами?

classification preprocessor weka

rom 11.12.2017 источник

comment

Мой ответ на этот вопрос может быть полезен: перекрестная проверка в weka"> stackoverflow.com/questions/47683638/ - zbicyclist 12.12.2017

comment

Поскольку ist поддерживает только сохранение порядка, это поможет (возможно) только в том случае, если на источник (в моем случае) будет точно такое же количество экземпляров. Это не так. - rom 13.12.2017

Ответы (1)

arrow_upward
0
arrow_downward

Если вы не хотите использовать 4-кратную перекрестную проверку, а хотите использовать только 24 в качестве обучения и 8 в качестве теста, вы можете разделить файл на 2 (24 в одном, 8 в другом). Загрузите файл 24 в Preprocess. На вкладке «Классификатор» вместо перекрестной проверки щелкните переключатель рядом с «Предоставленный набор тестов», а затем дайте ему имя файла 8 файлов.

zbicyclist 14.12.2017

comment

я знаю о возможности дублирования набора и удаления каждого подмножества. это можно сделать даже с помощью скрипта, но это не то, что хорошо масштабируется, если повторяется. весь смысл кроссовера в том, что вы делаете это более одного раза и результат автоматически усредняется. - rom; 14.12.2017

Weka — перекрестная проверка на основе номинальных значений

Ответы (1)

Похожие вопросы