Я искал в Google эту проблему и не могу найти что-то, что объясняет этот алгоритм простым, но подробным образом.
Например, я знаю, что алгоритм id3 вообще не использует отсечение, поэтому, если у вас есть непрерывная характеристика, процент успешных прогнозов будет очень низким.
Итак, C4.5 для поддержки непрерывных характеристик использует обрезку, но единственная ли это причина?
Также я не очень понимаю в приложении WEKA, как именно фактор достоверности влияет на эффективность прогнозов. Чем меньше коэффициент достоверности, тем больше будет выполняться сокращение алгоритма, однако какова корреляция между сокращением и точностью прогноза? Чем больше вы обрезаете, тем лучше прогнозы или хуже?
Спасибо