Публикации по теме 'sklearn'


Глава 8: Уменьшение размерности
Обзор практического машинного обучения с помощью Scikit-Learn, Keras и Tensorflow Орельена Жерона Резюме Уменьшение размерности — это процесс получения многомерных данных (данных, для которых требуется более трех измерений) и уменьшения количества измерений, чтобы либо упростить работу с данными, либо сделать их достаточно видимыми при визуализации данных. Это сокращение требует математических вычислений и требует потери информации, но в долгосрочной перспективе может сделать данные..

Шесть шагов для оттачивания ваших данных: предварительная обработка данных, часть 3
Это руководство отвечает на все следующие вопросы: Какие недостающие значения? Когда возникает проблема пропущенных значений? Почему так важно обрабатывать отсутствующие значения? Как обрабатываются отсутствующие числовые значения? Как обрабатываются категориальные пропущенные значения? Пока что у нас есть четкое представление о том, как импортировать все необходимые библиотеки и как импортировать соответствующий набор данных, а также отдельные функции и целевые переменные...

Как я улучшил свой результат в табличном соревновании Kaggle за август 2021 года, используя Generic Univariate select…
Kaggle — это ведущий в мире веб-сайт по науке о данных, на который стекаются энтузиасты науки о данных. Недавно меня впечатлил тот факт, что Kaggle теперь предлагает ежемесячные табличные соревнования, которые дают таким новичкам, как я, возможность улучшить свои навыки в этой области. Поскольку Kaggle предлагает прекрасную возможность улучшить свои навыки работы с данными, я всегда с нетерпением жду этих ежемесячных конкурсов и активно работаю над ними, если позволяет время. В то..

Разгадка линейной регрессии | Склеарн
(Закрытая форма реализации алгоритма наименьших квадратов) Предисловие Вы когда-нибудь интересовались внутренней реализацией алгоритма линейной регрессии в scikit-learn ? ? Если ваш ответ да, то вы находитесь в правильном месте. В этой статье я проведу вас через распаковку линейной регрессии в соответствии с разработкой и реализацией в sklearn. О линейной регрессии Это линейный подход к моделированию взаимосвязи между скалярным откликом и одной или несколькими..

Объяснение отчета о классификации Python
Матрица путаницы и отчет о классификации — это индикаторы соответствия sklearn для моделей классификации. Я использовал матрицу путаницы и отчет о классификации, взятые из прогнозов, которые я сделал с использованием титанического набора данных, чтобы объяснить показатели, используемые в отчете о классификации. Матрицу путаницы необходимо использовать вместе с отчетом о классификации, чтобы идентифицировать…

Как выполнить логистическую регрессию на mtcars?
Логистическая регрессия • Машинный алгоритм с учителем, который предсказывает вероятность возникновения бинарного события • Например, определение вероятности наличия у человека диабета; будет два возможных исхода: «да» у них диабет или «нет» у них нет диабета • Этот метод известен как бинарная классификация. Чем логистическая регрессия отличается от линейной регрессии? • В линейной регрессии целевой результат представляет собой числовое непрерывное значение, тогда как в..

Разделение тестовых и обучающих данных на основе страт
Когда мы разделяем набор данных на тестовые и обучающие наборы, мы часто используем разные тактики разделения. Очень часто методы основаны на случайном выборе записей и размещении их в разных наборах. Например, в sklearn есть простая функция, которая позволяет нам легко разделить наш набор: train_set, test_set = train_test_split(data, test_size=0.2, random_state=42) Однако у этого метода есть недостаток: наборы данных, которые мы получаем после разделения, могут быть..