Определение:

Дерево решений – это древовидный алгоритм обучения с учителем, который используется для прогнозного анализа данных и помогает делать обобщенные выводы.

Он определяет метки в зависимости от данной функции. Теперь, что такое ярлык и функция здесь?

Ярлык – это то, что вы пытаетесь предсказать или сделать вывод. Функции — это ограничения или условия, определяющие, к чему относится метка или набор заданных данных.

Пример:

Сэм студент. Нам нужно проверить, сможет ли Сэм закончить свою домашнюю работу вовремя или нет. :P Очевидно, что на это есть только два возможных ответа: ДА или НЕТ.

Таким образом, Ярлыки здесь ДА и НЕТ, но чтобы предсказать это, нам нужны Функции, такие как скорость письма Сэма, помощь друзей, количество страниц для написания и т. д.

Это основной смысл того, что означают метки и функции.

Чтобы продолжить работу с деревом решений, мы будем использовать тот же пример.

Возьмем для простоты две функции. Один из них — помощь ее подруги Ади, а другой — скорость письма Сэма.

Типы деревьев решений (CART — деревья классификации и регрессии):

Деревья классификации. Они используются для классификации объектов.

Пример: его можно использовать, чтобы предсказать, выполнит ли Сэм домашнее задание или нет. (ДА НЕТ)

Деревья регрессии. Они обычно используются для прогнозирования значений чего-либо, что произойдет в будущем.

Пример: С какой скоростью (страниц/мин) Сэм может выполнить домашнее задание.

Пояснение с графиком:

Сначала нарисуем двухмерный график для приведенного выше примера.

Обозначение: Синий = ДА Красный = НЕТ

В целом красные точки слева внизу говорят о том, что средняя скорость письма Сэма низкая и помощь Ади тоже меньше. Таким образом, невозможно выполнить домашнюю работу вовремя.

Точно так же красные точки, когда скорость Сэма низкая, но процент помощи Ади высок, по-прежнему не позволяют Сэму выполнить домашнее задание.

Красные точки, когда скорость Сэма высока, а помощь Ади очень мала, означают невозможно выполнить домашнее задание.

Но когда помощь Ади высока, а скорость Сэма также высока, можно выполнить домашнюю работу вовремя. Это представлено синими точками.

Как работает дерево решений:

Давайте нарисуем линии на приведенном выше графике, как показано ниже.

Линии не обязательно должны быть прямыми, но они должны разделять график таким образом, чтобы примеси в каждой части уменьшались.

Х‹7,8 и Y‹38

X‹7,8 и Y›38

Х>7,8 и Y‹ 38

X›7,8 и Y›38

На приведенном выше графике линия ab, параллельная оси Y, пересекает X на 7,8 (приблизительно), так что все точки слева от линии ab окрашены красными (что означает, что ответ НЕТ)

Точно так же линия cd делит график таким образом, что все точки ниже нее окрашены красным.

Примечание.

Вы можете видеть пару синих точек, которые лежат ниже cd. Так что вам может показаться, что вы хотите провести линию немного ниже нее. Но при этом вы поместите много красных точек над линией cd, что вызовет больше загрязнений в областях X›7.3 и Y›10.

И вот как работает дерево решений, оно определяет, к какой части принадлежат данные, а затем классифицирует их по наборам, т. е. если заданы данные, скорость = 7,5 страниц/мин и помощь = 5%, то дерево решений классифицирует их ( НЕТ)

Энтропия:

Простейшим определением энтропии было бы «мера примеси». Энтропия находится между 0 и 1.

Математическое уравнение: E = -𝚺 p(xi)log2 (p(xi))

Пример:

p(да) = 9/(9+5) = 9/14 = 0,642

p(no) = 5/(9+5) = 5/14 = 0.3514

Энтропия (E) = — 0,642 log (0,642) — 0,3514 log (0,3514) = 0,9406

Чем меньше энтропия, тем меньше примесь.

Максимальное значение энтропии равно 1, т.е. p(ДА)=p(НЕТ)= 0,5. Таким образом, можно сказать, что у нас максимальная нечистота.

Вот ваше дерево решений:

Получение информации:

Прирост информации является мерой энтропии.

Вам может быть интересно, какая польза здесь от энтропии. Что ж, приведенное выше дерево решений прекрасно, но в реальном времени то, сможет ли Сэм закончить домашнюю работу, также зависит от количества страниц, которые нужно написать, и скорости письма Ади.

Возьмем пример автомобиля с автоматической коробкой передач:

Вы можете увидеть три функции, чтобы решить, должна ли машина двигаться быстро или медленно.

Но проблема в том, что мы не знаем, какая функция имеет приоритет над другими. Объекты с более высоким приоритетом становятся родительским узлом

А приоритет функции определяется с помощью прироста информации.

IG и приоритет прямо пропорциональны друг другу.

Формула получения информации (IG):

IG = E(родительский) — 𝚺 (средневзвешенное)*E(дочерний)

Мы рассчитываем прирост информации для каждой функции, а затем упорядочиваем их.

  1. Согласно классу: S - медленный, F - быстрый.

IG = E(родительский)- (0,75*E(левый узел)+ 0,25*E(правый узел))

(Средневзвешенное значение в левом узле: 3 из 4 возможных ответов, т.е. 3/4 или 0,75)

IG = 0.3112

Точно так же IG для оставшихся двух функций будет,

IG (неровность) = E (родительский) — (0,5 * E (неровный) + 0,5 * E (гладкий)) = 0

IG(Ограничение скорости) = E(родительский) — (0,5 * E(да) + 0,5 * E(нет)) = 1

Дерево решений будет выглядеть так:

Корень - это ограничение скорости с наивысшим IG, 1, за которым следует класс, а затем неровность дороги.

Завершение ветвления:

Вы всегда можете задаться вопросом, когда мы перестанем разветвлять дерево.

Ответ: когда происходит переобучение.

Переобучение – это ошибка моделирования, возникающая, когда функция слишком точно соответствует набору точек данных. Переоснащенная модель показывает кривую с более высокими и более низкими точками, в то время как правильно подобранная модель показывает гладкую кривую или линейную регрессию.

Противоположностью переобучения является недостаточное приспособление. Переоснащение возникает, когда «ошибки обучения малы, а ошибки тестирования велики», тогда как недостаточное обучение возникает, когда «ошибки обучения велики, а ошибки тестирования малы».

Сокращение:

Сокращение – это метод машинного обучения, который уменьшает размер деревьев решений путем удаления нескольких разделов дерева, которые не дают возможности классифицировать экземпляры. . Это снижает сложность конечного классификатора и, следовательно, повышает точность прогнозирования за счет уменьшения переобучения.

Предварительная и последующая обрезка:

Предварительная обрезка – это остановка роста дерева до того, как оно полностью вырастет.

Пост-обрезка позволяет дереву расти без ограничений по размеру. После завершения дерева начинается обрезка дерева.

Обрезка уменьшает сложность дерева, а также контролирует ненужный рост дерева. Это, следовательно, повышает точность.

Предварительная обрезка выполняется быстрее, чем постобрезка, поскольку не нужно ждать завершения построения дерева решений.

Плюсы и минусы дерева решений:

Плюсы:

Простота анализа и интерпретации.

→ Построение ТД происходит быстрее.

→ Быстрый прогноз в большинстве случаев. Это скорее зависит от набора данных.

Минусы:

Нестабильный (небольшое изменение данных может привести к огромной разнице в результатах модели)

→ Расчеты могут стать утомительными, если в данных присутствует много значений переменных.

→ Если возникает какой-либо новый сценарий, трудно изменить дерево и снова предсказать результаты. то есть потеря изобретения.

— Авторы Адитья Шеной и Самьюкта Прабху