В weka, как мне проверить, соответствует ли индуцированное дерево обучающим данным?
ИЗМЕНИТЬ:
Итак, вот результаты моего классификатора Random Forest, построенного на большом тренировочном наборе и гораздо меньшем проверочном наборе (генерируемом динамически на основе соотношения классов в большом тренировочном наборе).
Вы сказали, что если есть переобучение, производительность тестового набора (я называю его проверочным набором) ужасно упадет? Но в этом случае, кажется, не сильно падает.
Большой обучающий набор (25 000 записей)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 24849 99.3563 %
Incorrectly Classified Instances 161 0.6437 %
Kappa statistic 0.9886
Mean absolute error 0.0344
Root mean squared error 0.0887
Relative absolute error 30.31 %
Root relative squared error 37.2327 %
Total Number of Instances 25010
Проверочный набор (IID?) (5000 записей)
=== Evaluation on training set ===
=== Summary ===
Correctly Classified Instances 4951 99.02 %
Incorrectly Classified Instances 49 0.98 %
Kappa statistic 0.9827
Mean absolute error 0.0402
Root mean squared error 0.0999
Relative absolute error 35.269 %
Root relative squared error 41.8963 %
Total Number of Instances 5000