Определение:

Дървото на решенията е базиран на дърво алгоритъм за контролирано обучение, използван при прогнозен анализ на данни, който помага да се получат обобщени заключения.

Той определя етикетите в зависимост от дадена функция. Сега, какво е етикет и функция тук?

Етикетът е нещо, което се опитвате да предвидите или заключите. Характеристики са ограниченията или условията, които решават към кой етикет или набор от дадени данни принадлежи.

Пример:

Сам е студент. Трябва да проверим дали Сам може да завърши домашното си навреме или не. :P Очевидно е, че има само два възможни отговора за това: ДА или НЕ.

И така, Етикетите тук са ДА и НЕ, но за да предвидим това, имаме нужда от Характеристики като скоростта на писане на Сам, помощ от приятели, брой страници за писане и т.н.

Това е основната същност на значението на етикетите и функциите.

За да продължим с дървото на решенията, ще използваме същия пример.

Нека вземем две функции за простота. Едното е помощта на нейния приятел, Ади, а другото е скоростта на писане на Сам.

Типове дървета за вземане на решения (CART — Дървета за класификация и регресия):

Класификационни дървета:Те се използват за класифициране на неща.

Пример: Може да се използва за прогнозиране дали Сам ще завърши домашното или не. (ДА НЕ)

Регресионни дървета: Те обикновено се използват за прогнозиране на стойности на всичко, което се случва в бъдеще.

Пример: С каква скорост (страници/мин) Сам може да завърши домашното.

Обяснение с графика:

Нека първо начертаем двуизмерна графика за горния пример.

Представяне : Синьо = ДА Червено = НЕ

Като цяло червените точки долу вляво казват, че средната скорост на писане на Сам е ниска и помощта на Ади също е по-малка. Така че не е възможно да завършите домашните навреме.

По същия начин, червените точки, когато скоростта на Сам е ниска, но процентът на помощ на Ади е висок, все още не е възможно за Сам да завърши домашното си.

Червените точки, когато скоростта на Сам е висока, но помощта на Ади е много по-малка, не е възможно да завършите домашното.

Но когато помощта на Ади е голяма и скоростта на Сам също е бърза, е възможно да завършите домашното навреме. Това е представено от сините точки.

Как работи дървото на решенията:

Нека начертаем линии в горната графика, както е показано по-долу.

Не е необходимо линиите да са прави, но трябва да разделят графиката така, че примесите във всяка част да бъдат намалени.

X‹7.8 & Y‹ 38

X‹7.8 & Y›38

X›7.8 & Y‹ 38

X›7.8 & Y›38

В горната графика линията ab, успоредна на оста Y, пресича X на 7,8 (приблизително), така че всички точки отляво на линията ab са червени (което означава, че отговорът е НЕ)

По същия начин линията cdразделя графиката така, че всички точки под нея са червени

Забележка:

Можете да видите, че има няколко сини точки, които се намират под cd. Така че може да ви се прииска да начертаете линия малко под него. Но като направите това, вие ще поставите много червениточки над линията cd, което причинява повече примеси в региона X›7.3 & Y›10.

Ето как работи дървото на решенията, то определя към коя част принадлежат данните и след това ги класифицира в набори, т.е. ако дадените данни са скорост=7,5 страници/мин и помощ= 5%, тогава дървото на решенията ще класифицира, че има ( НЕ)

Ентропия:

Най-простото определение за ентропия би било „мярка за примеси“. Ентропията е между 0 и 1.

Математическо уравнение: E = -𝚺 p(xi )log2 (p( xi ))

Пример:

p(да) = 9/(9+5) = 9/14 = 0,642

p(no) = 5/(9+5) = 5/14 = 0.3514

Ентропия (E) = — 0,642 log(0,642) — 0,3514 log(0,3514) = 0,9406

Колкото по-малка е ентропията, толкова по-малко е примесът.

Максималната стойност на ентропията е 1, т.е. p(YES)=p(NO)= 0,5. Така можем да кажем, че имаме максимален примес.

Ето вашето дърво на решенията:

Придобиване на информация:

Придобиването на информация е мярка за ентропията.

Може би се чудите каква е ползата от ентропията тук. Е, горното дърво на решенията е страхотно, но в реално време дали Сам може да завърши домашното също зависи от броя страници за писане и скоростта на писане на Ади.

Да вземем пример за автоматична кола:

Можете да видите три функции, за да решите дали колата да се движи бързо или бавно

Но проблемът е, че не знаем коя функция има приоритет пред другите. Функциите с по-висок приоритет стават родителски възел

И приоритетът на функцията се идентифицира с помощта на придобиване на информация

IG и приоритетът са право пропорционални един на друг.

Формула за получаване на информация (IG):

IG= E(родител) — 𝚺 (средно претеглена)*E(дете)

Ние изчисляваме печалбата от информация за всяка характеристика и след това ги подреждаме.

  1. Според степента: S е бавен, а F е бърз

IG= E(родител)- (0,75*E(ляв възел)+ 0,25*E(десен възел))

(Средно претеглена стойност в левия възел: 3 от 4 възможни отговора, т.е. 3/4 или 0,75)

IG = 0.3112

По същия начин IG за останалите две функции ще бъде,

IG(неравност) = E(родител) — (0,5 * E(неравност) + 0,5 * E(гладка)) = 0

IG(ограничение на скоростта) = E(родител) — (0,5 * E(да) + 0,5 * E(не)) = 1

Дървото на решенията ще изглежда така:

Основното е ограничението на скоростта с най-висок IG, 1, последвано от степен и след това неравност на пътя.

Прекратяване на разклоненията:

Винаги може да се чудите кога ще спрем да разклоняваме дървото.

Отговор: когато възникнепренапълване.

Пренастройването е грешка при моделиране, която възниква, когато дадена функция е твърде близка до набор от точки от данни. Един прекалено монтиран модел показва крива с по-високи и по-ниски точки, докато правилно монтиран модел показва гладка крива или линейна регресия.

Обратното на прекомерното обзавеждане е недостатъчното обзавеждане. Надстройването възниква, когато „грешките в обучението са малки и грешките в теста са големи“, докато недостатъчното вписване възниква, когато „грешките в обучението са големи и грешките в теста са малки“.

Подрязване:

Отрязването е техника в машинното обучение, която намалява размера на дърветата на решенията чрез премахване на няколко секции от дървото, които предоставят малко мощност за класифициране на екземпляри . Той намалява сложността на крайния класификатор и следователно подобрява точността на прогнозиране чрез намаляване на пренастройването.

Предварително подрязване и след подрязване:

Предварителната резитба е спиране на растежа на едно дърво, преди да е израснало напълно.

Подрязването позволява на дървото да расте без ограничение на размера. След завършване на дървото започва да подрязва дървото.

Подрязването намалява сложността на дървото и също така контролира ненужния растеж на дървото. Следователно това подобрява точността в отговор.

Предварителното подрязване е по-бързо от последващото подрязване, тъй като не е необходимо да се чака пълно изграждане на дървото на решенията.

Плюсове и минуси на дървото на решенията:

Плюсове:

Лесна за анализ и интерпретация.

→ Изграждането на DT е по-бързо.

→ Бързо прогнозиране в повечето случаи. По-скоро зависи от набора от данни.

Недостатъци:

Нестабилен (малка промяна в данните може да доведе до огромна разлика в резултатите на модела)

→ Изчисленията може да станат досадни, ако в данните присъстват много променливи стойности.

→ Ако се появи някакъв нов сценарий, е трудно да се промени дървото и да се предскажат резултатите отново. загуба на изобретение.

— Написано от Адитя Шеной и Самюкта Прабху