Публикации по тематике scikit-learn

Публикации по теме 'scikit-learn'

Добавление текста для регрессии — Часть I: scikit-learn

Хотя мы вступили в эпоху больших языковых моделей, которые предполагается применять для решения множества различных задач (см., например, мою статью Прогнозирование временных рядов с помощью ChatGPT ), нам по-прежнему нужны классические подходы, такие как регрессионные модели с конструированием признаков для решения множества задач. проблемы, с которыми мы можем столкнуться. В этой короткой серии статей мы проанализируем различные методы обозначения текста , то есть извлечения..

Простая линейная регрессия с кодом Python

Простая линейная регрессия — это статистический метод, используемый для установления взаимосвязи между двумя переменными, где одна является независимой, а другая — зависимой переменной. Этот метод называется «линейным», потому что он предполагает, что связь между переменными представляет собой прямую линию. В этом блоге мы объясним, как выполнить простую линейную регрессию с помощью кода Python. Допустим, у нас есть набор данных с двумя переменными: X и Y. Мы хотим использовать..

Понимание популярного алгоритма машинного обучения: линейная регрессия

Введение Алгоритмы машинного обучения стали жизненно важной частью многих отраслей, от здравоохранения до финансов, от маркетинга до развлечений. В этой статье мы рассмотрим популярные алгоритмы машинного обучения, а именно линейную регрессию. Мы объясним математическую формулу алгоритма и приведем пример, иллюстрирующий работу каждого алгоритма. Наконец, мы сравним алгоритмы, используя матрицу путаницы, и предложим, какой алгоритм может быть наиболее подходящим для различных приложений...

Решение упражнений [Глава 4: Модели обучения]…

Глава 4: Модели обучения 1. Какой обучающий алгоритм линейной регрессии вы можете использовать, если у вас есть обучающий набор с миллионами функций? Как нормальное уравнение, так и подход с разложением по сингулярным значениям (SVD) становятся очень медленными, когда количество признаков становится большим (например, 100 000). Тем не менее, Gradient Descent хорошо масштабируется с количеством функций; обучение модели линейной регрессии, когда есть сотни тысяч функций, намного..

Классификатор дерева решений

Как менеджеру по маркетингу, вам нужен набор клиентов, которые с наибольшей вероятностью купят ваш продукт. Вот как вы можете сэкономить свой маркетинговый бюджет, найдя свою аудиторию. Как кредитный менеджер, вам необходимо выявлять рискованные кредитные заявки, чтобы добиться более низкого процента невозврата кредита. Этот процесс классификации клиентов на группы потенциальных и непотенциальных клиентов или безопасных или рискованных кредитных заявок известен как проблема классификации...

Использование глубокого НЛП и других моделей машинного обучения в твитах (часть 2)

Добро пожаловать в другой пост, документирующий мой прогресс в решении проблемы Kaggle, упомянутой в Части 1 , где я буду пытаться различными методами улучшить предсказуемость моих моделей, когда дело доходит до определения того, является ли твит о реальной чрезвычайной ситуации / катастрофе. Сегодня мы рассмотрим еще один столбец в данных, чтобы использовать некоторые функции и потенциально найти новую переменную, которая поможет нашей модели в ее прогнозах. В прошлый раз мы использовали..

Разделение набора данных на обучающие, проверочные и тестовые наборы с использованием Python

Что такое разделение Train-validation-test в ML Разделение обучения, тестирования и проверки — это процесс разделения набора данных на три отдельных подмножества: набор обучения, набор тестов и набор проверки. Разделение набора данных на обучающие, проверочные и тестовые наборы является важным шагом в процессе машинного обучения и глубокого обучения. Имея отдельные наборы для обучения, проверки и тестирования, мы можем лучше оценить производительность нашей модели, предотвратить..