Weka - Как проверить, есть ли переобучение в weka?

В weka, как мне проверить, соответствует ли индуцированное дерево обучающим данным?

ИЗМЕНИТЬ:

Итак, вот результаты моего классификатора Random Forest, построенного на большом тренировочном наборе и гораздо меньшем проверочном наборе (генерируемом динамически на основе соотношения классов в большом тренировочном наборе).

Вы сказали, что если есть переобучение, производительность тестового набора (я называю его проверочным набором) ужасно упадет? Но в этом случае, кажется, не сильно падает.

Большой обучающий набор (25 000 записей)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances       24849               99.3563 %
Incorrectly Classified Instances       161                0.6437 %
Kappa statistic                          0.9886
Mean absolute error                      0.0344
Root mean squared error                  0.0887
Relative absolute error                 30.31   %
Root relative squared error             37.2327 %
Total Number of Instances            25010     

Проверочный набор (IID?) (5000 записей)

=== Evaluation on training set ===
=== Summary ===

Correctly Classified Instances        4951               99.02   %
Incorrectly Classified Instances        49                0.98   %
Kappa statistic                          0.9827
Mean absolute error                      0.0402
Root mean squared error                  0.0999
Relative absolute error                 35.269  %
Root relative squared error             41.8963 %
Total Number of Instances             5000     

person user2431438    schedule 29.05.2013    source источник


Ответы (2)


Если я не ошибаюсь, то результаты вывода, показанные выше, относительно точности, которые относятся к оценке вашего классификатора на полном наборе данных (обучение), речь не идет о классификации на каких-либо тестовых данных, чтобы получить полный результат точности, который вам нужен работайте с разделами обучения/тестирования, или вы можете работать с разделением внешнего теста, это даст лучшее представление о результатах классификатора.

person Hitesh    schedule 23.01.2014

Легко. Используйте совершенно отдельный набор тестов. То есть используйте тестовый набор, который не содержит экземпляров, общих с обучающим набором. Не используйте перекрестную проверку или любые другие средства проверки данных обучения.

Примечание: по умолчанию деревья решений Weka используют обрезку. То есть они пытаются обобщить дерево (читай: предотвратить чрезмерную подгонку), используя статистические методы для обрезки дерева до того, как будут достигнуты истинные листовые узлы, когда нет статистических веских причин для создания дополнительных узлов принятия решений. . Единственный способ на самом деле узнать, соответствует ли дерево решений вашим обучающим данным, — это свериться с IID. Если вы выполняете переподгонку, вы получите отличные результаты при перекрестной проверке или ином тестировании на тренировочном наборе, но ужасные результаты при тестировании на отдельных тестовых данных IID. .

person Wesley Baugh    schedule 31.05.2013
comment
Спасибо, приятель, это объясняет, но все еще не слишком ясно. Я отредактировал свой вопрос с дополнительной информацией. - person user2431438; 31.05.2013
comment
Не используйте перекрестную проверку или любые другие средства проверки ваших обучающих данных. - всего одно замечание: при перекрестной проверке вы никогда не тестируете обучающие данные. - person makak; 01.07.2014