Как ExtraTreesClassifier намалява риска от пренастройване?

ExtraTreesClassifier е метод за обучение в ансамбъл, базиран основно на дървета на решения. ExtraTreesClassifier, подобно на RandomForest, рандомизира определени решения и подмножества от данни, за да сведе до минимум прекомерното учене от данните и пренастройването.

Нека да разгледаме някои методи на ансамбъл, подредени от висока към ниска дисперсия, завършващи в ExtraTreesClassifier.

Дърво на решенията (висока вариация)

Едно дърво на решения обикновено превъзхожда данните, от които се учи, защото се учи само от един път на решения. Прогнозите от едно дърво на решения обикновено не правят точни прогнози за нови данни.

Случайна гора (средна вариация)

Случайните горски модели намаляват риска от пренастройване чрез въвеждане на произволност чрез:

  • изграждане на множество дървета (n_estimators)
  • чертане на наблюдения със замяна (т.е. стартираща проба)
  • разделяне на възли при най-добро разделяне сред произволно подмножествоот функциите, избрани във всеки възел

Допълнителни дървета (ниска вариация)

Extra Trees е като Random Forest, тъй като изгражда множество дървета и разделя възли, използвайки произволни подмножества от функции, но с две ключови разлики: не зарежда наблюдения (което означава, че взема проби без заместване) и възлите се разделят на произволни разделяния, а не най-добрите разделяния. И така, в обобщение, ExtraTrees:

  • изгражда множество дървета с bootstrap = Falseпо подразбиране, което означава, че взема проби без заместване
  • възлите се разделят въз основа на произволни разделяния между произволно подмножествоот характеристиките, избрани във всеки възел

В Extra Trees произволността не идва от първоначалното зареждане на данни, а по-скоро идва от произволното разделяне на всички наблюдения.

ExtraTrees е кръстен на (Изключително рандомизирани дървета).