Разбиране на индекса Джини и получаването на информация в дърветата на решенията

Започвайки с Извличане на данни, наскоро усъвършенстван универсален подход, който трябва да бъде възприет успешно при прогнозиране на данни, това е подходящ метод, използван за анализ на данни за откриване на тенденции и връзки в данни, които биха могли да предизвикат истинска намеса.

Някои популярни инструменти, използвани в извличането на данни, са изкуствени невронни мрежи (ANN), логистична регресия, дискриминантен анализ и дървета на решенията.

Дървото на решенията е най-известният и мощен инструмент, който е лесен за разбиране и бърз за прилагане за откриване на знания от огромни и сложни набори от данни.

Въведение

Редица теоретици и практици редовно усъвършенстват техниките, за да направят процеса по-строг, адекватен и рентабилен.

Първоначално дърветата на решенията се използват в „теорията на решенията“ и статистиката в голям мащаб. Това също са завладяващи инструменти заизвличане на данни, извличане на информация, извличане на текст и разпознаване на модели в машинното обучение.

Тук бих препоръчал да прочетете моятапредишна статия, за да се спрете и да изострите знанията си по отношение на дърветата на решенията.

Същността на дърветата на решенията преобладава в разделянето на наборите от данни на техните секции, които индиректно възникват дърво на решения (обърнато), имащо корени възли на върха. Стратифицираният модел на дървото на решенията води до крайния резултат чрез преминаване през възли на дърветата.

Тук всеки възел съдържа атрибут (характеристика), който става основната причина за по-нататъшно разделяне в посока надолу.

Можеш ли да отговориш,

Как да решите коя функция да се намира в основния възел,
Най-точната функция, която служи като вътрешни възли или листови възли,
Как да разделим дърво,
Как да измерите точността на разделяне на дърво и много други.

Има някои фундаментални параметри на разделяне за справяне със значителните проблеми, обсъдени по-горе. И да, в сферата на тази статия ще разгледамеЕнтропията, Джини индекса, придобиването на информацияитяхната роля в изпълнението на техниката на дървото на решенията.

По време на процеса на вземане на решение участват множество функции и става важно да се обърне внимание на уместността и последствията от всяка характеристика, като по този начин се присвоява подходящата характеристика в основния възел и преминава разделянето на възлите надолу.

Придвижването в посока надолу води до намаляване на нивото на примеси и несигурност и дава по-добра класификация или разделяне на елита във всеки възел.

За да се разреши същото, се използват мерки за разделяне като Ентропия, Информационен приток, индекс на Джини и др.

Определяне на ентропията

„Какво е ентропия?“ По думите на Лиман, това не е нищо друго освен мярка за безредие или мярка за чистота. По принцип това е измерване на примесите или произволността в точките с данни.

Висок порядък на разстройство означава ниско ниво на примеси, нека го опростя. Ентропията се изчислява между 0 и 1, въпреки че в зависимост от броя на групите или класовете, присъстващи в набора от данни, тя може да бъде по-голяма от 1, но означава същото значение, т.е. по-високо ниво на разстройство.

За по-лесно тълкуване, нека ограничим стойността на ентропията между 0 и 1.

В изображението по-долу, обърната форма на „U“ изобразява вариацията на ентропията на графиката, оста x представя точки от данни, а оста y показва стойността на ентропията. Ентропията е най-ниската (без разстройство) в крайностите (и двата края) и максималната (високо разстройство) в средата на графиката.

„Ентропията е степен на произволност или несигурност, която от своя страна удовлетворява целта на специалистите по данни и моделите за машинно обучение за намаляване на несигурността.“

Какво е придобиване на информация?

Концепцията за ентропия играе важна роля при изчисляването на информационния приток.

Увеличаването на информацията се прилага, за да се определи количествено коя характеристика предоставя максимална информация за класификацията въз основа на понятието за ентропия, т.е. чрез количествено определяне на размера на несигурността, разстройството или нечистотата, като цяло, с намерение за намаляване на количеството ентропия, започваща от върха (основен възел) надолу (напуска възлите).

Информационната печалба взема произведението на вероятностите на класа с дневник с основа 2 на тази вероятност на класа, формулата за ентропия е дадена по-долу:

Тук „p“ означава вероятността това да е функция на ентропията.

Gini Index в действие

Индексът на Джини, известен също като примес на Джини, изчислява степента на вероятност за конкретна характеристика, която е класифицирана неправилно, когато е избрана на случаен принцип. Ако всички елементи са свързани с един клас, тогава той може да се нарече чист.

Нека да възприемем критерия на индекса на Джини, подобно на свойствата на ентропията, индексът на Джини варира между стойности 0 и 1, където 0 изразява чистотата на класификацията, т.е. всички елементи принадлежат към определен клас или там съществува само един клас. А 1 показва произволното разпределение на елементите в различни класове. Стойността от 0,5 на индекса Джини показва равномерно разпределение на елементите в някои класове.

При проектирането на дървото на решенията характеристиките, притежаващи най-малка стойност на индекса Gini, ще бъдат предпочитани. Можете да научите друг дървовиден алгоритъм („Случайна гора“).

Индексът на Джини се определя чрез изваждане на сумата от квадратите на вероятностите за всеки клас от един, математически индексът на Джини може да бъде изразен като:

Където Pi означава вероятността даден елемент да бъде класифициран за отделен клас.

Алгоритъмът за класификация и регресионно дърво (CART) използва метода на индекса Gini за създаване на двоични разделяния.

В допълнение, алгоритмите на дървото на решенията използват Информационното усилване, за да разделят възел, а Джини индексът или Ентропията е пътят за претегляне на Информационния усилвател.

Индекс Джини срещу печалба на информация

Погледнете по-долу за нарастващото несъответствие между Gini Index и Information Gain,

Индексът Gini улеснява по-големите разпределения толкова лесни за прилагане, докато Information Gain предпочита по-малките разпределения с малък брой с множество специфични стойности.
Методът на Gini Index сеизползва от CART алгоритми, за разлика от него Information Gain сеизползва в ID3, C4.5 алгоритми.
Индексът на Gini работи с категоричните целеви променливи по отношение на „успех“ или „неуспех“ и извършва само двоично разделяне, за разлика от това, че Information Gain изчислява разликата между ентропия преди и след разделянето и показва примесите в класове елементи.

Заключение

Индексът Gini и Information Gain се използват за анализ на сценария в реално време, а данните са реални, които се улавят от анализа в реално време. В множество дефиниции се споменава и като „нечистота на данни“ или „как се разпространяват данните. Така че можем да изчислим кои данни вземат по-малко или повече участие при вземането на решения.

Днес завършвам с нашите топ четива:

О, страхотно, стигнахте до края на този блог! Благодаря ви за четенето!!!!!