Публикации по теме 'feature-selection'


Как я улучшил свой результат в табличном соревновании Kaggle за август 2021 года, используя Generic Univariate select…
Kaggle — это ведущий в мире веб-сайт по науке о данных, на который стекаются энтузиасты науки о данных. Недавно меня впечатлил тот факт, что Kaggle теперь предлагает ежемесячные табличные соревнования, которые дают таким новичкам, как я, возможность улучшить свои навыки в этой области. Поскольку Kaggle предлагает прекрасную возможность улучшить свои навыки работы с данными, я всегда с нетерпением жду этих ежемесячных конкурсов и активно работаю над ними, если позволяет время. В то..

Методы выбора функций для классификации и советы Python по их применению
Учебное пособие о том, как использовать наиболее распространенные методы выбора признаков для задач классификации. Выбор функций для использования - важный шаг в любом проекте машинного обучения и повторяющаяся задача в повседневной работе специалиста по данным. В этой статье я рассмотрю наиболее распространенные типы методов выбора признаков, используемых на практике для решения задач классификации, разделив их на 6 основных категорий. Я даю советы о том, как использовать их в..

Практическое руководство к методам выбора функций: гибридные методы
Часть 5: Объединение методов выбора фильтра, оболочки и встроенных функций Эта статья является пятой из серии, посвященной практическим подходам к методам выбора функций. Если вы пропустили какие-либо другие сообщения, я бы порекомендовал их проверить: Практическое руководство по методам выбора функций: введение . Практическое руководство по методам выбора функций: методы фильтрации . Практическое руководство к методам выбора функций: методы оболочки . Практическое..

Полные методы выбора функций 4–4 На основе модели
Обобщите интуицию выбора функций для модели на основе дерева и регрессии, а также некоторые распространенные стратегии выбора функций, такие как рекурсивное исключение функций, перестановка функций и исключение функций. Полные методы выбора функций Статистическое тестирование и анализ Корреляционный анализ Уменьшение размеров На основе модели Модель на основе дерева В процессе роста (или разделения) дерева решений дерево решений оценит все функции и..

Расширенные K-средние: контроль размеров групп и выбор функций
Несколько полезных настроек для K-средних При использовании K-средних мы можем столкнуться с двумя проблемами: В итоге мы получаем кластеры очень разных размеров , одни из которых содержат тысячи наблюдений, а другие - всего несколько В нашем наборе данных слишком много переменных , и алгоритм K-средних изо всех сил пытается определить оптимальный набор кластеров. Ограниченные K-средние: контроль размера группы Алгоритм основан на статье Bradley et al. и был реализован..

Простой в использовании выбор функции корреляции с помощью Kydavra
"Машинное обучение" Простой в использовании выбор функции корреляции с помощью Kydavra Почти каждый человек, занимающийся наукой о данных или машинным обучением, знает, что один из самых простых способов найти соответствующие функции для прогнозируемого значения y - это найти функции, которые наиболее коррелируют с y. Однако немногие (если не математики) знают, что существует много типов корреляции. В этой статье я вкратце расскажу вам о 3 самых популярных типах корреляции и о том,..

Вопросы по теме 'feature-selection'

Использование критерия хи-квадрат для выбора признаков
У меня всегда возникают проблемы с пониманием значения критерия хи-квадрат и того, как его использовать для выбора признаков. Я пытался читать вики-страницу, но не получил практического понимания. Кто-нибудь может объяснить?
2476 просмотров

Применить выбор объектов к новому набору данных X
Плакат первый раз! Я действительно новичок в науке о данных и решил принять участие в конкурсе. Я написал некоторый код для выбора 10% лучших функций из моего набора обучающих данных X (9999 строк, 2000 столбцов). Чего я не могу понять, так это...
199 просмотров
schedule 28.10.2023

Обучение предсказателя машинного обучения
Я пытался построить модель прогнозирования, используя данные пользователя. Ввод модели — это метаданные документов (дата публикации, название и т. д.), а метка документа — предпочтения этого пользователя (нравится/не нравится). Я хотел бы задать...
227 просмотров

выбор оптимального количества функций с использованием PCA/LDA/MDS в scikit
Я хочу уменьшить возможности набора данных с помощью PCA, LDA и MDS. Но я также хочу сохранить 95% дисперсии. Я не смог найти способ указать желаемую дисперсию в формулах для соответствующих алгоритмов. Один абзац кажется актуальным в API PCA...
905 просмотров
schedule 26.10.2023

Поиск по сетке гиперпараметров SVM-анова и получение выбранной функции в Sklearn
В документе sklearn есть пример SVM-Anova . Я хочу дополнительно сделать GridSearchCV для гиперпараметров, идентификатора, C и гаммы для SVM для каждого процентиля функций, используемых в примере, например: transform =...
532 просмотров

Как получить выбранные функции после сокращения LinearSVC в scikit
Название говорит само за себя, я проверил scikit , которые очень плохи для этой конкретной задачи, и я проверил несколько онлайн-ресурсов, включая этот пост. Однако, похоже, они ошибаются. Для выбора функций мы можем сделать что-то вроде:...
561 просмотров
schedule 12.03.2024

Почему в этом наборе данных методом выбора подмножества выбрано слишком мало объектов
У меня есть набор данных классификации со 148 входными функциями (20 из которых двоичные, а остальные непрерывны в диапазоне [0,1]). Набор данных содержит 66171 отрицательный пример и только 71 положительный пример. Набор данных ( arff текстовый...
129 просмотров

Feature_importances в scikit узнайте, как выбрать правильные параметры?
Моя задача — понять, какие функции (расположенные в столбцах набора данных X) лучше всего предсказывают целевую переменную — y. Я решил использовать feature_importances_ в RandomForestClassifier. RandomForestClassifier имеет лучший результат...
428 просмотров

Сборка конвейера sklearn + вложенная перекрестная проверка для регрессии KNN
Я пытаюсь понять, как создать рабочий процесс для sklearn.neighbors.KNeighborsRegressor , который включает: нормализовать особенности выбор функций (лучшее подмножество из 20 числовых функций, без конкретного итога) перекрестная проверка...
2633 просмотров

Как справиться с различиями в функциях моих тренировочных и тестовых данных
Итак, в настоящее время мои наборы для обучения и тестирования начинаются с 669 функций, многие из которых являются категориальными и требуют быстрого кодирования. После однократного кодирования обоих наборов я обнаружил, что обучающий набор имеет...
526 просмотров

выбор признаков с помощью varimp
# ensure results are repeatable set.seed(7) # load the library library(mlbench) library(caret) library(randomForest) # load the dataset data(liver) # prepare training scheme control1 <- trainControl(method="repeatedcv", number=10, repeats=3) #...
172 просмотров
schedule 17.10.2022

SkLearn: Feature Union со словарем и текстовыми данными
У меня есть DataFrame, например: text_data worker_dicts outcomes 0 "Some string" {"Sector":"Finance", 0 "State: NJ"} 1 "Another...
733 просмотров

Переменные важности графика xgboost Python
Когда я рисую важность функции, я получаю этот беспорядочный график. У меня более 7000 переменных. Я понимаю, что встроенная функция выбирает только самые важные, хотя окончательный график не читается. Это полный код: import numpy as np import...
12672 просмотров

SelectKBest ValueError после логарифмического преобразования целевой переменной
В настоящее время я делаю некоторый анализ набора данных о ценах на жилье в Эймсе, штат Айова. Я успешно обработал данные и удалил все пропущенные значения и т. д., и я собираюсь провести регрессионный анализ. Я хочу построить три модели регрессии:...
185 просмотров

Трехмерные входные данные для случайной регрессии леса
Проблема Глядя на примеры регрессии случайного леса Sklearn, например с набором данных IRIS , входными данными являются векторы размера [n_samples, n_features] : slen swid plen pwid 5.1 3.5 1.4 0.2 4.9 3.0 1.4...
338 просмотров

Регрессия выбора функций о Scikit-learn
У меня есть файл данных excel, включая предикторы и цель/ответ. Я назвал цель «РЯДОМ», и у каждого предиктора есть свое имя. Для изучения выбора признаков я использовал этот код, но что-то пошло не так, и я не мог понять влияние каждого из...
90 просмотров

Какова мотивация перекрестной проверки предварительной обработки выбора функций?
Я видел несколько статей и примеров выбора функций (обертка и встроенные методы), в которых образцы данных разбивались на обучающие и тестовые наборы. Я понимаю, почему нам нужно использовать перекрестную проверку (разделить данные на набор для...
119 просмотров

sklearn случайный лес, чтобы найти количество выбранных функций
Я пытаюсь понять, насколько актуальна оценка, которую получила каждая выбранная функция. Я пробовал это до сих пор: classifier = SelectFromModel(RandomForestClassifier(n_estimators = 100)) m = classifier.fit(train.drop(columns='indicator'),...
57 просмотров

в чем разница между классификацией текста и выделением признаков
можем ли мы выбрать функции без классификации, и если у меня есть текст, как я могу узнать, какие функции выбрать? Мне нужен пример относительно текста, а не реального примера объекта слова. если кто-нибудь может объяснить, пожалуйста?
81 просмотров

Объяснение коэффициента корреляции - выбор признаков
Как определить переменные, которые нужно удалить из нашей модели, на основе коэффициента корреляции. См. ниже Пример переменных: Top 10 Absolute Correlations: Variable 1 Variable 2 Correlation Value pdays pmonths...
924 просмотров