Дерево решений — это диаграмма недостатков, которая представляет собой классификацию наборов данных. Он используется для поддержки принятия решений в деловой ситуации. Каждый внутренний узел представляет собой «тест» для атрибутов, каждая ветвь представляет собой результат теста, а каждый лист представляет собой метку класса. Все это обозначает весь процесс классификации наборов данных. Алгоритм дерева решений называется CART (деревья классификации и регрессии). Структура дерева решений показана ниже.

Общие термины, используемые с деревом решений

  1. Корневой узел. Корневой узел — это исходные наборы данных или выборка, которые далее делятся на два или более однородных набора.
  2. Разделение. Это процесс разделения узла.
  3. Узел принятия решения. Если подузел разделен на два или более узлов, он будет называться узлом принятия решения.
  4. Лист. Его также называют конечным узлом. Это означает конец узла. Узел, который далее не делится.
  5. Сокращение: чтобы удалить узел.
  6. Ветвь. Подраздел всего дерева называется ветвью или поддеревом.
  7. Родительский и дочерний узел. Когда узел разделен на два или более узлов, этот узел называется родительским узлом. Результаты деления называются дочерними узлами родительского узла.

Характеристики дерева решений

Целевое значение может быть либо категориальным значением, либо непрерывным значением.

Процесс классификации легко визуализировать и понять.

Этот метод требует меньшей подготовки данных, чем другие методы анализа данных, такие как линейная регрессия.

Исходные данные могут включать как категориальные, так и сплошные цифры.

Как он разбивает наборы данных?

Решение о разделении сильно влияет на точность модели дерева решений. Критерии принятия решений различаются для деревьев классификации и регрессии.

Дерево решений использует несколько методов для разделения данных. Это определяет эффективный метод создания однородных узлов.

4 основных метода деления приведены ниже

Индекс Джини

Индекс Джини показывает, насколько чист набор данных. Если индекс Джини равен 1, целевой набор данных полностью чист. С другой стороны, если это значение равно 0, набор данных запутан.

Хи-квадрат

Это алгоритм для поиска статистической разницы между родительским узлом и дочерним узлом. Мы измеряем его суммой квадратов стандартизированной разницы между наблюдаемой и ожидаемой частотой целевых переменных.

Получение информации

Менее нечистый узел требует больше информации для его описания. Более нечистый узел требует меньше информации для его описания. Используя это мышление, мы можем разделить узел. Теория информации использует энтропию для измерения степени дезорганизации системы. Если выборка полностью однородна, энтропия становится равной 1. В противоположной ситуации энтропия становится равной 0, наборы данных беспорядочны.

Энтропию можно рассчитать по формуле: - Энтропия = -p log2 p — q log2q

Уменьшение дисперсии

Эти методы пытаются найти лучший способ минимизировать дисперсию. Методы уменьшения дисперсии используются для разделения непрерывных целевых переменных. В качестве критерия разделения выбирается разделение с более низкой дисперсией (дисперсия - это статистический термин, который описывается средним квадратом разницы между наблюдаемым результатом и средним значением).

Короче говоря, алгоритм дерева решений пытается создать чистые наборы данных путем точного деления.

Чтобы избежать переобучения

Как я упоминал в предыдущей истории в среде, мы все должны заботиться о переоснащении в машинном обучении. Если мы преследуем только точность на обучающей выборке, алгоритм дерева решений может получить 100% точность. Но в этом случае все наблюдаемые данные разбиваются на один узел. Классификации нет! Просто разделить все. Даже если вы получите 100% обучающих данных, вы не сможете применить эту модель к неизвестному набору данных, потому что эта модель дерева решений подходит только для обучающих данных. Ниже приведены два основных способа избежать переобучения.

Построение дерева

Настройка ограничений может использоваться, чтобы избежать переобучения. Например, вы можете ограничить максимальную глубину дерева решений, тогда это может привести к разделению соответствующих временных интервалов.

Обрезка деревьев

Корректировать дерево решений путем обрезки. Сначала мы делаем большое дерево решений и удаляем листья, которые дают нам отрицательные результаты.