Понимание индекса Джини и получения информации в деревьях принятия решений

Начиная с интеллектуального анализа данных, недавно усовершенствованного универсального подхода, который будет успешно применяться при прогнозировании данных, это благоприятный метод, используемый для анализа данных для выявления тенденций и взаимосвязей. в данных, которые могут вызвать серьезные помехи.

Некоторые популярные инструменты, используемые в интеллектуальном анализе данных: искусственные нейронные сети (ИНС), логистическая регрессия, дискриминантный анализ и деревья решений.

Дерево решений - самый известный и мощный инструмент, который легко понять и быстро реализовать для обнаружения знаний из огромных и сложных наборов данных.

Вступление

Многие теоретики и практики регулярно оттачивают методы, чтобы сделать процесс более строгим, адекватным и рентабельным.

Изначально деревья решений используются в теории принятия решений и статистике в больших масштабах. Это также эффективные инструменты в интеллектуальном анализе данных, поиске информации, интеллектуальном анализе текста и распознавании образов в машинном обучении.

Здесь я бы порекомендовал прочитать мою предыдущую статью, чтобы подробно остановиться и отточить свой запас знаний с точки зрения деревьев решений.

Сущность деревьев решений превалирует в разделении наборов данных на разделы, которые косвенно образуют дерево решений (инвертированное) с корневыми узлами наверху. Стратифицированная модель дерева решений приводит к конечному результату через проход по узлам деревьев.

Здесь каждый узел содержит атрибут (функцию), который становится основной причиной дальнейшего разделения в нисходящем направлении.

Ты можешь ответить,

Как решить, какая функция должна быть расположена в корневом узле
Наиболее точная функция, служащая внутренними узлами или листовыми узлами
Как разделить дерево
Как измерить точность разделения дерева и многое другое.

Существуют некоторые фундаментальные параметры расщепления для решения значительных проблем, рассмотренных выше. И да, в рамках этой статьи мы рассмотрим энтропию, индекс Джини, получение информации и их роль в применении техники деревьев решений .

В процессе принятия решения участвуют несколько функций, и становится важным учитывать релевантность и последствия каждой функции, таким образом, назначая соответствующую функцию в корневом узле и преодолевая разделение узлов вниз.

Движение вниз ведет к снижению уровня примесей и неопределенности и приводит к лучшей классификации или элитному разделению на каждом узле.

Чтобы решить эту же проблему, используются такие показатели разделения, как Энтропия, Информационный прирост, Индекс Джини и т. Д.

Определение энтропии

«Что такое энтропия?» По словам Лаймана, это не просто мера беспорядка или мера чистоты. По сути, это измерение примеси или случайности в точках данных.

Высокий порядок беспорядка означает низкий уровень примесей, позвольте мне упростить. Энтропия рассчитывается между 0 и 1, хотя в зависимости от количества групп или классов, присутствующих в наборе данных, она может быть больше 1, но означает то же значение, то есть более высокий уровень беспорядка.

Для простоты интерпретации ограничим значение энтропии между 0 и 1.

На изображении ниже перевернутая U-образная форма показывает изменение энтропии на графике, ось x представляет точки данных, а ось y показывает значение энтропии. Энтропия - самая низкая (без беспорядка) в крайних точках (оба конца) и максимум (высокий беспорядок) в середине графика.

«Энтропия - это степень случайности или неопределенности, которая, в свою очередь, удовлетворяет цели специалистов по данным и моделей машинного обучения по уменьшению неопределенности».

Что такое получение информации?

Концепция энтропии играет важную роль в вычислении получения информации.

Прирост информации применяется для количественной оценки того, какой признак предоставляет максимальную информацию о классификации на основе понятия энтропии, т. Е. путем количественной оценки размера неопределенности, беспорядка или примеси, в общем, с целью уменьшение количества энтропии, инициируемой сверху (корневой узел) вниз (оставляет узлы).

Получение информации представляет собой произведение вероятностей класса с логарифмом, имеющим основание 2 вероятности этого класса, формула для энтропии приведена ниже:

Здесь «p» обозначает вероятность того, что это функция энтропии.

Индекс Джини в действии

Индекс Джини, также известный как примесь Джини, вычисляет степень вероятности того, что конкретный признак классифицируется неправильно при случайном выборе. Если все элементы связаны в один класс, то его можно назвать чистым.

Давайте воспринимать критерий индекса Джини, как свойства энтропии, , индекс Джини варьируется между значениями от 0 до 1, где 0 выражает чистоту классификации, т.е. все элементы принадлежат указанный класс или существует только один класс. А 1 указывает на случайное распределение элементов по различным классам. Значение индекса Джини 0,5 показывает равное распределение элементов по некоторым классам.

При проектировании дерева решений предпочтение будет отдаваться характеристикам, имеющим наименьшее значение индекса Джини. Вы можете изучить другой древовидный алгоритм (Случайный лес).

Индекс Джини определяется путем вычитания суммы квадратов вероятностей каждого класса из одного, математически индекс Джини может быть выражен как:

Где Pi обозначает вероятность того, что элемент будет отнесен к отдельному классу.

Алгоритм дерева классификации и регрессии (CART) »использует метод индекса Джини для создания двоичных разбиений.

Кроме того, алгоритмы дерева решений используют информационное усиление для разделения узла, а индекс Джини или энтропия - это путь для взвешивания информационного прироста.

Индекс Джини против получения информации

Взгляните ниже, чтобы увидеть расхождение между индексом Джини и получением информации.

Индекс Джини упрощает реализацию более крупных распределений, в то время как прирост информации предпочитает меньшие распределения с небольшим счетчиком с несколькими конкретными значениями.
Метод индекса Джини используется алгоритмами CART, в отличие от него, Information Gain используется в алгоритмах ID3, C4.5.
Индекс Джини оперирует категориальными целевыми переменными в терминах «успех» или «неудача», а выполняет только двоичное разбиение, в отличие от этого прирост информации вычисляет разницу между энтропией до и после разделения и указывает на примеси в классах элементов.

Заключение

Индекс Джини и информационный прирост используются для анализа сценария в реальном времени, и данные являются реальными, которые собираются из анализа в реальном времени. Во многих определениях он также упоминается как «нечистота данных» или «как данные распределяются. Таким образом, мы можем подсчитать, какие данные в меньшей или большей степени участвуют в принятии решений.

Сегодня я закончил с нашими лучшими чтениями:

Прекрасно, вы дочитали этот блог до конца! Спасибо за чтение!!!!!