Как ExtraTreesClassifier снижает риск переобучения?

ExtraTreesClassifier - это метод ансамблевого обучения, в основе которого лежат деревья решений. ExtraTreesClassifier, как и RandomForest, рандомизирует определенные решения и подмножества данных, чтобы минимизировать чрезмерное обучение на основе данных и переобучение.

Давайте посмотрим на некоторые методы ансамбля, упорядоченные от высокой к низкой дисперсии, заканчивая ExtraTreesClassifier.

Дерево решений (высокая дисперсия)

Одно дерево решений обычно превышает данные, на которых оно учится, потому что оно учитывает только один путь принятия решений. Прогнозы на основе одного дерева решений обычно не дают точных прогнозов на основе новых данных.

Случайный лес (средняя дисперсия)

Модели случайного леса снижают риск переобучения за счет введения случайности за счет:

  • построение нескольких деревьев (n_estimators)
  • рисование наблюдений с заменой (например, бутстрапированная выборка)
  • разбиение узлов на лучшее распределение среди случайного подмножества функций, выбранных на каждом узле

Дополнительные деревья (низкая дисперсия)

Extra Trees похож на Random Forest в том смысле, что он строит несколько деревьев и разбивает узлы, используя случайные подмножества функций, но с двумя ключевыми отличиями: он не загружает наблюдения (то есть выборки без замены), и узлы разбиваются на случайные разбиения, а не лучшие шпагаты. Итак, вкратце, ExtraTrees:

  • строит несколько деревьев со значением bootstrap = False по умолчанию, что означает выборку без замены
  • узлы разделяются на основе случайного разбиения между случайным подмножеством функций, выбранных на каждом узле.

В Extra Trees случайность возникает не из-за начальной загрузки данных, а из-за случайного разделения всех наблюдений.

ExtraTrees назван в честь (Чрезвычайно рандомизированные деревья).