Публикации по теме 'feature-engineering'


Слияние функций для непосвященных
Рассмотрим типичный продукт электронной коммерции. Он будет иметь множество функций, специфичных для контента, таких как название продукта, бренд, миниатюра и т. д., а также другие функции, связанные с взаимодействием, такие как количество кликов, рейтинг кликов и т. д. Любая модель машинного обучения, использующая функции этого продукта (например, ранжирование продукта, модель рекомендаций и т. д. ) придется иметь дело с проблемой слияния этих различных функций. Вообще говоря, мы..

Titanic — Очистка данных и разработка функций
Набор данных Titanic — один из лучших наборов данных для практики очистки данных и разработки функций. Это простой набор данных с очень богатой историей. Процесс очистки данных очень важен и является одним из самых трудоемких в анализе данных. Этот набор данных изначально был получен с конкурса Kaggle ( Титаник — машинное обучение от катастрофы ). Здесь я продемонстрирую некоторые методы очистки набора данных Титаника и выполнения проектирования признаков с целью применить его к..

Кодировка этикетки| Машинное обучение | Разработка функций
Что такое кодирование меток? Кодирование метки относится к преобразованию столбцов в числовые значения. Учитывая, что в наборе данных есть гораздо больше столбцов, но для понимания мы сосредоточимся только на одном столбце. Например: здесь укажите в категориальном столбце, чтобы понять алгоритм машинного обучения, мы выполним кодирование меток, чтобы преобразовать его в числовое значение. Итак, для его реализации все, что нам нужно сделать, это: Импортируйте класс..

Масштабирование ваших функций
Масштабирование - важный процесс проектирования функций. С помощью масштабирования мы стараемся привести наши данные в один и тот же диапазон. Некоторые типы методов масштабирования: · Шкала мин-макс : (от 0 до 1) X = (X-мин. Из X) / Диапазон · Стандартизация : (диапазон -3 и 3) Z = (X-среднее X) / (Стандартное отклонение X) · Десятичное масштабирование (от -1 до 1) X = X /(10^d) d = количество цифр то есть для значения, скажем, 4997, d = 4 поэтому X / (10⁴) = 0,4..

Исследование особенностей проектирования
Вступление Как лучше спроектировать данные - одна из основных задач при разработке функций. За исключением обработки данных, такой как вменение пропущенного значения, слияние и т. Д., Создание новых столбцов и преобразование существующих столбцов в контролируемом обучении важно для различения меток с полными изображениями данных и уменьшения несущественного шума. Если данные беспорядочные и совершенно не могут сказать вам, в чем заключаются основные различия между метками с..

Учим компьютеры видеть
Badi, как ведущий рынок аренды помещений, по своей сути наполнен медиа-контентом. На самом деле это серьезно, пользователи загрузили миллионы изображений с тех пор, как мы запустились три года назад. Если у вас есть свободная комната, вы загрузите много фотографий своей классной квартиры, которые сделают ее особенной. Кроме того, вы захотите, чтобы ваши будущие соседи по комнате знали, как вы себя чувствуете, и в свой профиль вы включите красивое селфи, но если вы любитель домашних..

Kaggle Titanic Challenge: создавайте новые функции, используя извлеченные данные
Лучшие данные, лучшая модель! Обзор Привет, ребята! В предыдущем разделе EDA мы рассмотрели распределение различных функций. И их взаимосвязь с меткой прогноза Выжил , а также друг с другом. Мы заметили, что некоторые функции, такие как Имя , содержат дополнительную информацию о названии пассажира , которая может быть полезна для нашей модели. В этом разделе мы будем извлекать полезные детали из различных функций и создавать новые функции. Давайте начнем! Полный..