Алгоритъмът на дървото на решенията попада в категорията на контролирано обучение. Те могат да се използват за решаване на проблеми както с регресия, така и с класификация. Дърво на решенията е инструмент за вземане на решения, който използва дървовидна структура, подобна на блок-схема, или е модел на решения и всички техни възможни резултати, включително резултати, входящи разходи и полезност. Такива модели често се наричат ​​модели с бяла кутия.

Важна терминология, свързана с дърветата на решенията

  1. Коренен възел:Той представлява цялата популация или извадка и това допълнително се разделя на два или повече хомогенни комплекта.
  2. Разделяне:Това е процес на разделяне на възел на два или повече подвъзела.
  3. Възел за вземане на решение:Когато подвъзел се раздели на допълнителни подвъзли, тогава той се нарича възел за вземане на решение.
  4. Листов/терминален възел:Възлите, които не се разделят, се наричат ​​листов или краен възел.
  5. Подрязване:Когато премахваме подвъзли на възел за решение, този процес се нарича изрязване. Можете да кажете обратния процес на разделяне.
  6. Клон/поддърво:Подраздел на цялото дърво се нарича клон или поддърво.
  7. Родителски и дъщерен възел:Възел, който е разделен на подвъзли, се нарича родителски възел на подвъзли, докато подвъзлите са дъщерен възел на родителски възел.

В дървото на решенията основното предизвикателство е идентифицирането на атрибута за коренния възел на всяко ниво. Този процес е известен като избор на атрибут. Имаме две популярни мерки за избор на атрибути:

  1. Информация (ентропия)

Ентропиятае мярката за несигурност на случайна променлива, тя характеризира нечистотата на произволна колекция от примери. Колкото по-висока е ентропията, толкова по-голямо е информационното съдържание. ентропията е нула, когато пробата е напълно хомогенна, а ентропията е единица, когато пробата е разделена по равно между различни класове.

Математически ентропията за 1 атрибут се представя като:

Където S → текущо състояние и Pi → вероятност за събитие iсъстояние S или процент от клас i във възел на състояние S.

Математически ентропията за множество атрибути се представя като:

къдетоT→ Текущо състояние и X → Избран атрибут

Придобиването на информация е разликата между ентропията на сегмент от данни преди разделянето и след разделянето. Високата разлика представлява висока информационна печалба. По-високата разлика предполага по-ниска ентропия на всички сегменти от данни в резултат на разделянето. По този начин, колкото по-голяма е разликата, толкова по-голяма е печалбата от информация и по-добра характеристика, използвана за разделянето. Математически печалбата от информация I може да бъде представена по следния начин:

Придобиване на информация = E(S1) — E(S2)

  • E(S1) представлява ентропията на данните, принадлежащи на възела преди разделянето
  • E(S2) представлява претеглената сума на ентропията на дъщерните възли; Тегла, равни на съотношението на екземпляра на данни, попадащ в конкретен дъщерен възел.

  1. Индекс Джини

Gini Index е метрика за измерване на това колко често произволно избран елемент би бил идентифициран неправилно. Това означава, че трябва да се предпочита атрибут с по-нисък Gini индекс. Можете да разберете индекса Gini като функция на разходите, използвана за оценка на разделянията в набора от данни. Изчислява се чрез изваждане на сумата от квадратите на вероятностите за всеки клас от единица.

„По-високата стойност на индекса Джини предполага по-голямо неравенство, по-голяма хетерогенност“

Примесът Gini е добра настройка по подразбиране при внедряване в sklearn, тъй като е малко по-бърз за изчисляване.

Въпреки това, когато те работят по различен начин, тогава примесът Джини има тенденция да изолира най-честия клас в собствения си клон на Дървото, докато ентропията има тенденция да произвежда малко по-балансирани Дървета.

Как да избегнете/противодействате на пренастройването в дърветата на решенията?

Ето начин за премахване на пренатоварването:

  1. Дървета за решения за подрязване.

Обратно на разделянето - процес на намаляване на размера на разраснато дърво на решенията чрез елиминиране на най-малко важните разделяния, като по този начин се намалява сложността на модела.

Ключовите хиперпараметри в дървото на решенията са-

критерий: „джини“ или „ентропия“ (функцията за измерване на качеството на разделяне)

max_depth : Максималната дълбочина на дървото. Ако „Няма“, тогава възлите се разширяват, докато всички листа са чисти

min_samples_leaf: Минималният брой проби, необходими за намиране на листов възел

max_features: Максималният брой функции, които трябва да се имат предвид, когато търсите най-доброто разделяне

max_leaf_nodes : Развийте дърво с max_leaf_nodes по най-добрия начин. Най-добрите възли се определят като относително намаляване на примесите. Ако „Няма“, тогава неограничен брой листови възли

Прилагане на дърво на решения

  1. Оценка на бъдещите възможности за растеж

2. Използване на демографски данни за намиране на бъдещи клиенти

3. Служи като помощен инструмент в няколко области

Въпроси:-

Q1-Кое трябва да се предпочита измежду примесите Gini и Entropy?

Q2-Изискваме ли мащабиране на функции за дървета на решения? Обяснете.

Q3-Как дървото на решенията обработва липсващи стойности на атрибут?

Q4-Какво е индуктивното отклонение на дърветата на решенията?

Q5- Дърветата на решенията засегнати ли са от отклоненията? Обяснете.

ЗАКЛЮЧЕНИЕ

В тази статия разгледахме много подробности за дървото на решенията; Работи, мерки за подбор на атрибути, като привличане на информация и Gini индекс, изграждане на модел на дърво на решенията.

Благодарим, че прочетохте!

Надявам се, че сте харесали въпросите и сте успели да проверите знанията си за дърветата на решенията.