Алгоритъмът на дървото на решенията попада в категорията на контролирано обучение. Те могат да се използват за решаване на проблеми както с регресия, така и с класификация. Дърво на решенията е инструмент за вземане на решения, който използва дървовидна структура, подобна на блок-схема, или е модел на решения и всички техни възможни резултати, включително резултати, входящи разходи и полезност. Такива модели често се наричат модели с бяла кутия.
Важна терминология, свързана с дърветата на решенията
- Коренен възел:Той представлява цялата популация или извадка и това допълнително се разделя на два или повече хомогенни комплекта.
- Разделяне:Това е процес на разделяне на възел на два или повече подвъзела.
- Възел за вземане на решение:Когато подвъзел се раздели на допълнителни подвъзли, тогава той се нарича възел за вземане на решение.
- Листов/терминален възел:Възлите, които не се разделят, се наричат листов или краен възел.
- Подрязване:Когато премахваме подвъзли на възел за решение, този процес се нарича изрязване. Можете да кажете обратния процес на разделяне.
- Клон/поддърво:Подраздел на цялото дърво се нарича клон или поддърво.
- Родителски и дъщерен възел:Възел, който е разделен на подвъзли, се нарича родителски възел на подвъзли, докато подвъзлите са дъщерен възел на родителски възел.
В дървото на решенията основното предизвикателство е идентифицирането на атрибута за коренния възел на всяко ниво. Този процес е известен като избор на атрибут. Имаме две популярни мерки за избор на атрибути:
- Информация (ентропия)
Ентропиятае мярката за несигурност на случайна променлива, тя характеризира нечистотата на произволна колекция от примери. Колкото по-висока е ентропията, толкова по-голямо е информационното съдържание. ентропията е нула, когато пробата е напълно хомогенна, а ентропията е единица, когато пробата е разделена по равно между различни класове.
Математически ентропията за 1 атрибут се представя като:
Където S → текущо състояние и Pi → вероятност за събитие iсъстояние S или процент от клас i във възел на състояние S.
Математически ентропията за множество атрибути се представя като:
къдетоT→ Текущо състояние и X → Избран атрибут
Придобиването на информация е разликата между ентропията на сегмент от данни преди разделянето и след разделянето. Високата разлика представлява висока информационна печалба. По-високата разлика предполага по-ниска ентропия на всички сегменти от данни в резултат на разделянето. По този начин, колкото по-голяма е разликата, толкова по-голяма е печалбата от информация и по-добра характеристика, използвана за разделянето. Математически печалбата от информация I може да бъде представена по следния начин:
Придобиване на информация = E(S1) — E(S2)
- E(S1) представлява ентропията на данните, принадлежащи на възела преди разделянето
- E(S2) представлява претеглената сума на ентропията на дъщерните възли; Тегла, равни на съотношението на екземпляра на данни, попадащ в конкретен дъщерен възел.
- Индекс Джини
Gini Index е метрика за измерване на това колко често произволно избран елемент би бил идентифициран неправилно. Това означава, че трябва да се предпочита атрибут с по-нисък Gini индекс. Можете да разберете индекса Gini като функция на разходите, използвана за оценка на разделянията в набора от данни. Изчислява се чрез изваждане на сумата от квадратите на вероятностите за всеки клас от единица.
„По-високата стойност на индекса Джини предполага по-голямо неравенство, по-голяма хетерогенност“
Примесът Gini е добра настройка по подразбиране при внедряване в sklearn, тъй като е малко по-бърз за изчисляване.
Въпреки това, когато те работят по различен начин, тогава примесът Джини има тенденция да изолира най-честия клас в собствения си клон на Дървото, докато ентропията има тенденция да произвежда малко по-балансирани Дървета.
Как да избегнете/противодействате на пренастройването в дърветата на решенията?
Ето начин за премахване на пренатоварването:
- Дървета за решения за подрязване.
Обратно на разделянето - процес на намаляване на размера на разраснато дърво на решенията чрез елиминиране на най-малко важните разделяния, като по този начин се намалява сложността на модела.
Ключовите хиперпараметри в дървото на решенията са-
критерий: „джини“ или „ентропия“ (функцията за измерване на качеството на разделяне)
max_depth : Максималната дълбочина на дървото. Ако „Няма“, тогава възлите се разширяват, докато всички листа са чисти
min_samples_leaf: Минималният брой проби, необходими за намиране на листов възел
max_features: Максималният брой функции, които трябва да се имат предвид, когато търсите най-доброто разделяне
max_leaf_nodes : Развийте дърво с max_leaf_nodes по най-добрия начин. Най-добрите възли се определят като относително намаляване на примесите. Ако „Няма“, тогава неограничен брой листови възли
Прилагане на дърво на решения
- Оценка на бъдещите възможности за растеж
2. Използване на демографски данни за намиране на бъдещи клиенти
3. Служи като помощен инструмент в няколко области
Въпроси:-
Q1-Кое трябва да се предпочита измежду примесите Gini и Entropy?
Q2-Изискваме ли мащабиране на функции за дървета на решения? Обяснете.
Q3-Как дървото на решенията обработва липсващи стойности на атрибут?
Q4-Какво е индуктивното отклонение на дърветата на решенията?
Q5- Дърветата на решенията засегнати ли са от отклоненията? Обяснете.
ЗАКЛЮЧЕНИЕ
В тази статия разгледахме много подробности за дървото на решенията; Работи, мерки за подбор на атрибути, като привличане на информация и Gini индекс, изграждане на модел на дърво на решенията.
Благодарим, че прочетохте!
Надявам се, че сте харесали въпросите и сте успели да проверите знанията си за дърветата на решенията.