Какво е дърво на решенията?

Дървото на решенията е диаграма с недостатъци, която представлява класификация на набори от данни. Използва се за подпомагане на вземането на решения в бизнес ситуация. Всеки вътрешен възел представлява „теста“ за атрибути и всеки клон представлява резултата от теста, а всеки лист представлява етикет на клас. Всичко това означава целия процес на класифициране на набори от данни. Алгоритъмът на дървото на решенията се нарича CART (дървета за класификация и регресия). Дървовидната структура на решенията е показана по-долу.

Общи термини, използвани с дървото на решенията

Коренен възел: Основният възел е оригинален набор от данни или извадка, който допълнително се разделя на два или повече хомогенни набора.
Разцепване: Това е процесът на разделяне на възела.
Възел за вземане на решение: Когато подвъзелът е разделен на два или повече възела, това ще се нарича възел за вземане на решение.
Лист: Нарича се още терминален възел. Това означава край на възела. Възел, който не е допълнително разделен.
Подрязване: За премахване на възела.
Клон: Подраздел на цялото дърво се нарича клон или поддърво.
Родителски и дъщерен възел: Когато възел е разделен на два или повече възела, възелът се нарича родителски възел. Резултатите от разделянето се наричат дъщерни възли на родителския възел.

Характеристики на дървото на решенията

Целевата стойност може да бъде или категорична стойност, или непрекъсната стойност.

Процесът на класифициране е лесен за визуализиране и разбиране.

Този метод изисква по-малко подготовка на данни, отколкото други методи за анализ на данни, като например линейна регресия.

Оригиналните данни могат да включват както категорични, така и непрекъснати числа.

Как разделя наборите от данни?

Решението за извършване на разделяне оказва силно влияние върху точността на модела на дървото на решенията. Критериите за вземане на решение са различни за класификация и регресионни дървета.

Дървото на решенията използва множество методи за разделяне на данни. Той определя ефективен метод за създаване на хомогенни възли.

По-долу са 4 основни метода за разделяне

Индекс Джини

Индексът на Джини показва колко чист е наборът от данни. Ако индексът на Джини е 1, целевият набор от данни е напълно чист. От друга страна, ако това е 0, наборът от данни е объркан.

Хи-квадрат

Това е алгоритъм за намиране на статистическа разлика между родителски възел и дъщерен възел. Ние го измерваме чрез сумата от квадратите на стандартизираната разлика между наблюдаваната и очакваната честота на целевите променливи.

Придобиване на информация

По-малко нечистият възел изисква повече информация, за да го опише. По-нечистият възел изисква по-малко информация, за да го опише. Използвайки това мислене, можем да разделим възела. Информационната теория използва ентропията, за да измери степента на дезорганизация в системата. Ако извадката е напълно хомогенна, ентропията става 1. В обратна ситуация ентропията става 0, разхвърляни набори от данни.

Ентропията може да се изчисли по формулата:- Ентропия = -p log2 p — q log2q

Намаляване на дисперсията

Тези методи се опитват да намерят най-добрия начин за минимизиране на дисперсията. Методите за намаляване на дисперсията се използват за разделяне на непрекъснати целеви променливи. Разделянето с по-ниска дисперсия се избира като критерии за разделяне. (Дисперията е статистически термин, който се описва със средната стойност на квадрата на разликата между наблюдавания резултат и средната стойност).

Накратко, алгоритъмът на дървото на решенията се опитва да направи чисти набори от данни чрез точно разделяне.

За да избегнете прекомерно оборудване

Както споменах в предишната история в среда, всички ние трябва да се грижим за прекомерното оборудване в машинното обучение. Ако преследваме само точността на обучителната извадка, алгоритъмът на дървото на решенията може да получи 100% точност. Но в този случай всяка наблюдавана информация се разделя на един възел. Няма класификация! Просто разделете всички. Дори ако получите 100% от данните за обучение, не можете да приложите този модел към неизвестен набор от данни, тъй като този модел на дървото на решенията се монтира само към данни за обучение. По-долу са два основни начина за избягване на прекомерното оборудване.

Изграждане на дърво

Настройването на ограничители може да се използва, за да се избегне пренастройването. Например, можете да ограничите максималната дълбочина на дървото на решенията, тогава това може да доведе до разделяне на подходящи времена.

Кастрене на дървета

За коригиране на дървото на решенията чрез подрязване. Първо правим голямо дърво на решенията и премахваме листата, които ни дават отрицателни резултати.

Какво е дърво на решенията?

Общи термини, използвани с дървото на решенията

Характеристики на дървото на решенията

Как разделя наборите от данни?

За да избегнете прекомерно оборудване

Подобни въпроси