Публикации по теме 'overfitting'


4 эффективных способа предотвратить переоснащение и почему они работают
Создание полезных моделей машинного обучения Введение В этом посте я расскажу о четырех практических способах избежать переобучения при построении моделей машинного обучения (ML) и о том, почему они эффективны. Переобучение — это нежелательное состояние, которое возникает, когда модель подгоняется слишком близко к обучающим данным, что становится невозможным хорошо обобщать новые примеры, то есть неспособность давать точные прогнозы для ранее невиданных наборов данных. Посмотрим..

Решение упражнений [Глава 4: Модели обучения]…
Глава 4: Модели обучения 1. Какой обучающий алгоритм линейной регрессии вы можете использовать, если у вас есть обучающий набор с миллионами функций? Как нормальное уравнение, так и подход с разложением по сингулярным значениям (SVD) становятся очень медленными, когда количество признаков становится большим (например, 100 000). Тем не менее, Gradient Descent хорошо масштабируется с количеством функций; обучение модели линейной регрессии, когда есть сотни тысяч функций, намного..

Можно ли использовать дерево решений для задач регрессии?
Дерево регрессии — это, по сути, дерево решений, которое используется для прогнозирования непрерывных результатов. В деревьях решений для классификации дерево разбивается на основе энтропии и прироста информации. Однако, поскольку мы прогнозируем непрерывные переменные, нельзя использовать энтропию, вместо этого используется среднеквадратическая ошибка. Среднеквадратическая ошибка (mse) говорит нам, насколько наши прогнозы отклоняются от исходной цели. На приведенном выше рисунке Y..

Проблема индукции и ее последствия для машинного обучения
Машинное обучение становится все более важным в самых разных областях, от здравоохранения до финансов и развлечений. Эти алгоритмы предназначены для изучения шаблонов из данных и создания прогнозов на основе этих шаблонов. Однако предположения, лежащие в основе алгоритмов машинного обучения, не всегда понятны, а в некоторых случаях могут быть проблематичными. Одним из таких предположений является проблема индукции, которая ставит под сомнение обоснованность индуктивных рассуждений. В этой..

Решение реального бизнес-кейса с использованием контролируемого обучения с Tensorflow 2.0
Задача: создание алгоритма машинного обучения, который может предсказать, купит ли клиент снова Бизнес-обоснование. У нас есть данные от компании, разрабатывающей приложения для электронных книг. Учитывая данные из их базы данных. В наборе данных каждый покупатель купил книгу один раз, это условие должно быть включено. Теперь мы хотим создать алгоритм машинного обучения на основе нашего набора данных, который может предсказать, собирается ли клиент снова купить электронную книгу..

Первая и самая разочаровывающая ловушка машинного обучения — «переобучение»!
В предыдущей статье мы обсудили две важные концепции, которые мы хотели изучить подробнее при оценке обучающих данных и определении того, подходит ли модель: Переоснащение и Недооснащение . Давайте начнем с определения этих терминов в более представительной манере: Переоснащение Переобучение происходит, когда наша модель становится слишком «привязанной» к обучающим данным. По сути, он так хорошо запоминает обучающие примеры, что с трудом обобщает новые, невидимые данные...

Обобщение, переоснащение и недостаточное оснащение в контролируемом обучении
Одна из задач при построении модели контролируемого обучения, будь то для классификации или регрессии, - это создать модель, которая будет делать правильные прогнозы на основе обучающих данных. Но модель будет бесполезной, если мы не сможем делать правильные прогнозы и на невидимом наборе данных. Эта способность хорошо работать на надежном наборе тестов - это способность алгоритма к обобщениям. Но как мы узнаем, будет ли обученная модель хорошо обобщать или будет точной на невидимых ранее..