Публикации по теме 'feature-engineering'
Слияние функций для непосвященных
Рассмотрим типичный продукт электронной коммерции. Он будет иметь множество функций, специфичных для контента, таких как название продукта, бренд, миниатюра и т. д., а также другие функции, связанные с взаимодействием, такие как количество кликов, рейтинг кликов и т. д. Любая модель машинного обучения, использующая функции этого продукта (например, ранжирование продукта, модель рекомендаций и т. д. ) придется иметь дело с проблемой слияния этих различных функций. Вообще говоря, мы..
Titanic — Очистка данных и разработка функций
Набор данных Titanic — один из лучших наборов данных для практики очистки данных и разработки функций. Это простой набор данных с очень богатой историей. Процесс очистки данных очень важен и является одним из самых трудоемких в анализе данных. Этот набор данных изначально был получен с конкурса Kaggle ( Титаник — машинное обучение от катастрофы ). Здесь я продемонстрирую некоторые методы очистки набора данных Титаника и выполнения проектирования признаков с целью применить его к..
Кодировка этикетки| Машинное обучение | Разработка функций
Что такое кодирование меток?
Кодирование метки относится к преобразованию столбцов в числовые значения. Учитывая, что в наборе данных есть гораздо больше столбцов, но для понимания мы сосредоточимся только на одном столбце. Например: здесь укажите в категориальном столбце, чтобы понять алгоритм машинного обучения, мы выполним кодирование меток, чтобы преобразовать его в числовое значение.
Итак, для его реализации все, что нам нужно сделать, это:
Импортируйте класс..
Масштабирование ваших функций
Масштабирование - важный процесс проектирования функций.
С помощью масштабирования мы стараемся привести наши данные в один и тот же диапазон.
Некоторые типы методов масштабирования:
· Шкала мин-макс : (от 0 до 1)
X = (X-мин. Из X) / Диапазон
· Стандартизация : (диапазон -3 и 3)
Z = (X-среднее X) / (Стандартное отклонение X)
· Десятичное масштабирование (от -1 до 1)
X = X /(10^d)
d = количество цифр
то есть для значения, скажем, 4997, d = 4
поэтому X / (10⁴) = 0,4..
Исследование особенностей проектирования
Вступление
Как лучше спроектировать данные - одна из основных задач при разработке функций. За исключением обработки данных, такой как вменение пропущенного значения, слияние и т. Д., Создание новых столбцов и преобразование существующих столбцов в контролируемом обучении важно для различения меток с полными изображениями данных и уменьшения несущественного шума. Если данные беспорядочные и совершенно не могут сказать вам, в чем заключаются основные различия между метками с..
Учим компьютеры видеть
Badi, как ведущий рынок аренды помещений, по своей сути наполнен медиа-контентом. На самом деле это серьезно, пользователи загрузили миллионы изображений с тех пор, как мы запустились три года назад. Если у вас есть свободная комната, вы загрузите много фотографий своей классной квартиры, которые сделают ее особенной. Кроме того, вы захотите, чтобы ваши будущие соседи по комнате знали, как вы себя чувствуете, и в свой профиль вы включите красивое селфи, но если вы любитель домашних..
Kaggle Titanic Challenge: создавайте новые функции, используя извлеченные данные
Лучшие данные, лучшая модель!
Обзор
Привет, ребята! В предыдущем разделе EDA мы рассмотрели распределение различных функций. И их взаимосвязь с меткой прогноза Выжил , а также друг с другом.
Мы заметили, что некоторые функции, такие как Имя , содержат дополнительную информацию о названии пассажира , которая может быть полезна для нашей модели. В этом разделе мы будем извлекать полезные детали из различных функций и создавать новые функции. Давайте начнем!
Полный..