Публикации по теме 'scikit-learn'


Рекомендуемый тип отеля Expedia
Задача классификации контролируемого машинного обучения. Блог будет обновлен в ближайшее время…

Внедрение PCA с нуля
Сравните реализацию с PCA Scikit-Learn. Эта статья является продолжением рассказа Редукция переменных с помощью анализа главных компонент . В предыдущем посте я рассказал об одном из самых известных и широко используемых методов, называемом анализом главных компонентов. Он использует эффективное линейное преобразование, которое уменьшает размерность многомерного набора данных при захвате максимального информационного содержания. Он генерирует основные компоненты, которые..

Объяснение Numpy, Pandas и SciKit Learn.
Откройте для себя Numpy, Pandas и SciKit Learn. Начиная с машинного обучения, вы видите термины Numpy, Pandas и SciKit Learn, упомянутые вокруг, независимо от того, актуальны они или нет. Эта статья поможет вам понять каждый термин и обязательно пригодится, когда вы будете заняты осваиванием машинного обучения. Numpy Numpy означает числовой питон. Судя по названию, это библиотека с открытым исходным кодом для языка программирования Python. Я слышал, вы думаете: «Еще одна..

Использование машинного обучения для прогнозирования того, у кого, скорее всего, есть банковский счет
Основной набор данных содержит демографическую информацию и сведения о том, какими финансовыми услугами пользуются примерно 33 600 человек в Восточной Африке. Эти данные были извлечены из различных опросов Finscope в период с 2016 по 2018 год. Задача состоит в том, чтобы предсказать вероятность того, что у человека есть банковский счет или нет. Исследование данных Набор обучающих данных выглядит следующим образом со столбцами: страна, год, уникальный идентификатор, банковский_счет,..

Вменение отсутствующих значений на основе KNN с использованием scikit-learn
Отсутствующие значения в наборе данных - это серьезная проблема, прежде чем мы сможем перейти к моделированию. Многие алгоритмы машинного обучения требуют, чтобы эти пропущенные значения были вменены, прежде чем продолжить. Популярный (наименее затратный с точки зрения вычислений) способ, который пытаются использовать многие специалисты по данным, - это использовать mean / median / mode или, если это временной ряд, то lead или lag запись. Должен быть лучший способ - это..

Синдицированный револьвер, часть 2
Прикладное машинное обучение: синдицированный револьвер, часть 2 Во второй части мы импортируем наши данные, проведем пояснительный анализ и построим быструю модель. Вы можете найти Часть 1 здесь и Часть 1.5 здесь . Если вы предпочитаете чистый код, можете заглянуть в блокнот на Github или Google Colab . Давайте начнем с импорта наших данных. Это не выглядит очень полезным. Оказалось, что в Excel на самом деле есть второй лист, давайте добавим параметр, указывающий,..

Делаем алгоритм оптимизации в 10 000 раз быстрее 🏎
Как мы заставили наш оптимизатор порогов классификации с несколькими метками сходиться за минуты, а не за дни Классификация по нескольким меткам — обычная задача машинного обучения и обработки естественного языка (NLP). Мы подходим к этому, обучая модель, которая может применять одну или несколько меток к каждому новому примеру, который она видит. Поскольку модель будет выводить вероятность для каждой из меток, один из параметров, который мы можем настроить для повышения ее..