Почему алгоритм C4.5 использует сокращение для уменьшения дерева решений и как сокращение влияет на точность предсказания?

Я искал в Google эту проблему и не могу найти что-то, что объясняет этот алгоритм простым, но подробным образом.

Например, я знаю, что алгоритм id3 вообще не использует отсечение, поэтому, если у вас есть непрерывная характеристика, процент успешных прогнозов будет очень низким.

Итак, C4.5 для поддержки непрерывных характеристик использует обрезку, но единственная ли это причина?

Также я не очень понимаю в приложении WEKA, как именно фактор достоверности влияет на эффективность прогнозов. Чем меньше коэффициент достоверности, тем больше будет выполняться сокращение алгоритма, однако какова корреляция между сокращением и точностью прогноза? Чем больше вы обрезаете, тем лучше прогнозы или хуже?

Спасибо


person ksm001    schedule 02.06.2012    source источник


Ответы (1)


Обрезка — это способ уменьшить размер дерева решений. Это снизит точность обучающих данных, но (в целом) повысит точность невидимых данных. Он используется для смягчения переобучения, когда можно добиться идеальной точности обучающих данных, но модель ( то есть дерево решений), которое вы изучаете, настолько специфично, что оно не применимо ни к чему, кроме данных обучения.

В общем случае, если вы увеличите отсечение, точность на тренировочном наборе будет ниже. Однако WEKA предлагает различные возможности для лучшей оценки точности, а именно разделение обучения/тестирования или перекрестную проверку. Например, если вы используете перекрестную проверку, вы обнаружите «золотую середину» коэффициента достоверности сокращения где-то там, где он сокращается достаточно, чтобы сделать изученное дерево решений достаточно точным на тестовых данных, но не жертвует слишком большой точностью на тестовых данных. данные тренировки. Однако, где находится эта золотая середина, будет зависеть от вашей реальной проблемы, и единственный способ надежно определить ее — это попробовать.

person Lars Kotthoff    schedule 02.06.2012