Публикации по тематике scikit-learn

Публикации по теме 'scikit-learn'

Анализ основных компонентов — PCA с помощью Scikit-Learn

Уменьшите размер ваших данных без потери сигнала от них Анализ главных компонентов Анализ главных компонентов (PCA) — это метод уменьшения размерности таких наборов данных, повышения интерпретируемости, но в то же время минимизации потери информации. Это достигается путем создания новых некоррелированных переменных, которые последовательно максимизируют дисперсию. В общем, PCA это: Уменьшение линейной размерности с использованием разложения данных по сингулярным значениям для..

Вы все еще используете поиск по сетке для оптимизации гиперпараметров?

Давайте обсудим идеи, лежащие в основе интеллектуального поиска гиперпараметров для ваших моделей машинного обучения. Когда мы обучаем модель машинного обучения, у нас есть выбор: какую модель использовать, как подготовить набор данных, как обрабатывать выбросы и т. Д. Один из вариантов - гиперпараметры; это параметры, которые контролируют процесс обучения, но не могут быть получены с помощью самого обучения. Вот несколько примеров: Скорость обучения, эпохи, количество слоев /..

Несбалансированная классификация медицинского диагноза

В этой статье объясняется, как можно уменьшить предвзятость нейронной сети, обученной медицинской диагностике, на наборе данных с низкой распространенностью заболевания. Обзор Несбалансированная классификация - обычная проблема в исследованиях медицинской диагностики. Практически при любом заболевании в медицинской лаборатории больше пациентов не болеют, а не болеют. В обучающей выборке наличие естественного преобладания пациентов с интересующим заболеванием приведет к смещению любой..

Дизайн и выбор модели с помощью Scikit-learn

Настройка, обучение и оценка моделей с помощью Scikit-learn Цель. Цель этой статьи - построить конвейер от начала до конца, чтобы получить доступ к прогнозной производительности 18 моделей машинного обучения на синтетическом наборе данных. Материалы и методы: Используя Scikit-learn, мы генерируем набор данных, аналогичный Madelon, для задачи классификации. Основные компоненты нашего рабочего процесса можно резюмировать следующим образом: (1) Создан набор для обучения и..

Решаете ли вы проблемы кластеризации машинного обучения с помощью K-средних?

Однострочное построение кривой изгиба, кривой силуэта, межкластерных расстояний и изучение советов Scikit-Learn, которые могут улучшить вашу модель. K-Means - это наиболее часто используемый алгоритм кластеризации в задачах неконтролируемого машинного обучения, и он действительно полезен для поиска похожих точек данных и определения структуры данных. В этой статье я предполагаю, что вы имеете базовое представление о K-средних и больше сосредоточитесь на том, как вы можете: Найдите..

Краткое руководство по случайному поиску (или поиску по сетке) с помощью конвейера

ТАБЛИЦА №1 Краткое руководство по случайному поиску (или поиску по сетке) с помощью конвейера Пять шагов с использованием scikit-learn from sklearn.decomposition import TruncatedSVD from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics import classification_report from sklearn.model_selection import train_test_split, RandomizedSearchCV # or GridSearchCV from sklearn.pipeline import Pipeline 1) Подготовьте наборы данных. train_df, test_df =..

Книга Salamander ML получает обновление!

Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow: концепции, инструменты и методы создания интеллектуальных систем Эта книга поможет вам в работе. Так написал Орельен Жерон, автор этой хорошо принятой книги, теперь уже во втором издании. Это, вероятно, преуменьшение. Вы не только выполняете поставленные задачи, но и хорошо разбираетесь во всех тонкостях машинного обучения (МО). Когда в начале 2017 года вышло первое издание , оно сразу стало моим фаворитом...