Базираните на дърво модели са част от непараметрични алгоритми, които са добри в справянето без линейни връзки. Те са добри както за класификация, така и за регресия.

Дърветата на решенията са Контролиран алгоритъм.Може да се използва както за категорични, така и за непрекъснативходни и изходни променливи чрез разделяне на пространството на характеристиките на няколко по-малки (неприпокриващи се) региони с подобни стойности на отговора, използвайки набор от правила за разделяне. Той следваподход отгоре надолу с цел намиране на най-оптималното решение (функция, която най-добре разделя данните) във всеки възел въз основа на етикети на клас, поради което се нарича Алчен алгоритъм.

Нека да разгледаме основната терминология, използвана с дърветата на решенията:

  1. Коренен възел:Той представлява цялата популация или извадка и това допълнително се разделя на два или повече хомогенни комплекта.
  2. Разделяне:Това е процес на разделяне на възел на два или повече подвъзела.
  3. Възел за вземане на решение:Когато подвъзел се раздели на допълнителни подвъзли, той се нарича възел за вземане на решения.
  4. Листов/краен възел:Възлите, които не се разделят, се наричат ​​листов или краен възел.

5.Подрязване:Когато премахваме подвъзли на възел за решение, този процес се нарича подрязване. Може да се каже обратен процес на разделяне.

6. Клон/поддърво:Подраздел на цялото дърво се нарича клон или поддърво.

7. Родителски и дъщерен възел:Възел, който е разделен на подвъзли, се нарича родителски възел на подвъзли, където подвъзлите са дъщерният възел на родителския възел.

Методика

Има много методологии за конструиране на дървета на решенията, но най-известната е класификасинаи ерегресия >ree (CART) алгоритъм.

CART използва двоично рекурсивно разделяне (рекурсивно е, защото всяко разделяне или правило зависи от разделянията над него). Целта на всеки възел е да се намери „най-добрата“ характеристика (xi), за да се разделят останалите данни в една от двете области (R1 и R2), така че общата грешка между действителния отговор (yi) и прогнозираната константа (ci) е сведен до минимум.

  • За проблеми с РЕГРЕСИЯ целевата функция за минимизиране е общата SSE, както е дефинирана по-долу:

  • За проблеми с КЛАСИФИКАЦИЯТА разделянето обикновено се прави чрез измерване на примесите на Node. (Нечистотиите възникват, когато терминалният възел има повече от един етикет на клас). Моля, вижте различните мерки за замърсяване тук.

Подрязване на дървото на решенията: Напълно развито дърво с голям брой възли не винаги е желателно, тъй като това може да прекалява с данните за обучение, които определено не искаме. Затова ние подрязваме дървото, за да го направим по-късо и по-добро в прогнозите. Моля, проверете тази статия за пълни подробности.

Благословии

  • Страхотна техника за изучаване на модели шумни модели
  • Резултатите са лесно интерпретируеми
  • Може да прави автоматичен поетапен избор на променливи и намаляване на сложността
  • Устойчив към извънредни стойности и липсващи данни чрез извършване на сурогатни разделяния (които биха приблизили най-доброто съответствие с помощта на друга променлива
  • Бърз, прост и здрав
  • Дърветата на решенията имплицитно извършват скрининг на променливи или избор на характеристики. Когато приспособим дърво на решения към набор от данни за обучение, първите няколко възела, на които е разделено дървото, са по същество най-важните променливи в набора от данни и изборът на характеристики се извършва автоматично

Проблеми

  • Големият брой характеристики водят до сложни дървета и могат да доведат до пренастройване
  • Алгоритъм за изкачване на алчен хълм, ранен лош избор може да обрече модела
  • Подрязването може да доведе до дърво, което премахва лошото разделяне рано, но неговото поддърво има добро разделяне по-късно
  • Няма най-добрата точност на прогнозиране
  • Прави само едномерни разделяния; не може да разгледа взаимодействията в даден възел

Забележки:

  • Възможно е повторно разделяне на една и съща функция в два подклона.
  • Категорични, както и числени данни (като се вземе предвид средната стойност на съответните наблюдения като гранична точка за решения) могат да се използват за разделяне.
  • Дървото на решенията е рекурсивно, защото се стреми да класифицира правилно членовете на популацията, като я разделя на подпопулации въз основа на няколко дихотомични независими променливи.

Ресурси:

  1. https://bradleyboehmke.github.io/HOML/process.html#model-eval
  2. https://www.analyticsvidhya.com/blog/2016/04/tree-based-algorithms-complete-tutorial-scratch-in-python/#one
  3. http://jennguyen1.github.io/nhuyhoa/statistics/Trees-and_Ensembles.html
  4. https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052
  5. StatQuest
  6. https://blog.clairvoyantsoft.com/entropy-information-gain-and-gini-index-the-crux-of-a-decision-tree-99d0cdc699f4
  7. Ранджи Радж 1, 2
  8. Mahesh Huddar ID3
  9. Analytics Vidya