Публикации по тематике feature-selection

Публикации по теме 'feature-selection'

Как я улучшил свой результат в табличном соревновании Kaggle за август 2021 года, используя Generic Univariate select…

Kaggle — это ведущий в мире веб-сайт по науке о данных, на который стекаются энтузиасты науки о данных. Недавно меня впечатлил тот факт, что Kaggle теперь предлагает ежемесячные табличные соревнования, которые дают таким новичкам, как я, возможность улучшить свои навыки в этой области. Поскольку Kaggle предлагает прекрасную возможность улучшить свои навыки работы с данными, я всегда с нетерпением жду этих ежемесячных конкурсов и активно работаю над ними, если позволяет время. В то..

Методы выбора функций для классификации и советы Python по их применению

Учебное пособие о том, как использовать наиболее распространенные методы выбора признаков для задач классификации. Выбор функций для использования - важный шаг в любом проекте машинного обучения и повторяющаяся задача в повседневной работе специалиста по данным. В этой статье я рассмотрю наиболее распространенные типы методов выбора признаков, используемых на практике для решения задач классификации, разделив их на 6 основных категорий. Я даю советы о том, как использовать их в..

Практическое руководство к методам выбора функций: гибридные методы

Часть 5: Объединение методов выбора фильтра, оболочки и встроенных функций Эта статья является пятой из серии, посвященной практическим подходам к методам выбора функций. Если вы пропустили какие-либо другие сообщения, я бы порекомендовал их проверить: Практическое руководство по методам выбора функций: введение . Практическое руководство по методам выбора функций: методы фильтрации . Практическое руководство к методам выбора функций: методы оболочки . Практическое..

Полные методы выбора функций 4–4 На основе модели

Обобщите интуицию выбора функций для модели на основе дерева и регрессии, а также некоторые распространенные стратегии выбора функций, такие как рекурсивное исключение функций, перестановка функций и исключение функций. Полные методы выбора функций Статистическое тестирование и анализ Корреляционный анализ Уменьшение размеров На основе модели Модель на основе дерева В процессе роста (или разделения) дерева решений дерево решений оценит все функции и..

Расширенные K-средние: контроль размеров групп и выбор функций

Несколько полезных настроек для K-средних При использовании K-средних мы можем столкнуться с двумя проблемами: В итоге мы получаем кластеры очень разных размеров , одни из которых содержат тысячи наблюдений, а другие - всего несколько В нашем наборе данных слишком много переменных , и алгоритм K-средних изо всех сил пытается определить оптимальный набор кластеров. Ограниченные K-средние: контроль размера группы Алгоритм основан на статье Bradley et al. и был реализован..

Простой в использовании выбор функции корреляции с помощью Kydavra

"Машинное обучение" Простой в использовании выбор функции корреляции с помощью Kydavra Почти каждый человек, занимающийся наукой о данных или машинным обучением, знает, что один из самых простых способов найти соответствующие функции для прогнозируемого значения y - это найти функции, которые наиболее коррелируют с y. Однако немногие (если не математики) знают, что существует много типов корреляции. В этой статье я вкратце расскажу вам о 3 самых популярных типах корреляции и о том,..

Вопросы по теме 'feature-selection'

Использование критерия хи-квадрат для выбора признаков

У меня всегда возникают проблемы с пониманием значения критерия хи-квадрат и того, как его использовать для выбора признаков. Я пытался читать вики-страницу, но не получил практического понимания. Кто-нибудь может объяснить?

2476 просмотров

machine-learning feature-selection chi-squared

03.04.2024

Применить выбор объектов к новому набору данных X

Плакат первый раз! Я действительно новичок в науке о данных и решил принять участие в конкурсе. Я написал некоторый код для выбора 10% лучших функций из моего набора обучающих данных X (9999 строк, 2000 столбцов). Чего я не могу понять, так это...

199 просмотров

python scikit-learn feature-selection

28.10.2023

Обучение предсказателя машинного обучения

Я пытался построить модель прогнозирования, используя данные пользователя. Ввод модели — это метаданные документов (дата публикации, название и т. д.), а метка документа — предпочтения этого пользователя (нравится/не нравится). Я хотел бы задать...

227 просмотров

python machine-learning feature-selection language-features

12.06.2024

выбор оптимального количества функций с использованием PCA/LDA/MDS в scikit

Я хочу уменьшить возможности набора данных с помощью PCA, LDA и MDS. Но я также хочу сохранить 95% дисперсии. Я не смог найти способ указать желаемую дисперсию в формулах для соответствующих алгоритмов. Один абзац кажется актуальным в API PCA...

905 просмотров

python scikit-learn feature-selection

26.10.2023

Поиск по сетке гиперпараметров SVM-анова и получение выбранной функции в Sklearn

В документе sklearn есть пример SVM-Anova . Я хочу дополнительно сделать GridSearchCV для гиперпараметров, идентификатора, C и гаммы для SVM для каждого процентиля функций, используемых в примере, например: transform =...

532 просмотров

python pipeline scikit-learn cross-validation feature-selection

02.02.2024

Как получить выбранные функции после сокращения LinearSVC в scikit

Название говорит само за себя, я проверил scikit , которые очень плохи для этой конкретной задачи, и я проверил несколько онлайн-ресурсов, включая этот пост. Однако, похоже, они ошибаются. Для выбора функций мы можем сделать что-то вроде:...

561 просмотров

scikit-learn svm feature-selection

12.03.2024

Почему в этом наборе данных методом выбора подмножества выбрано слишком мало объектов

У меня есть набор данных классификации со 148 входными функциями (20 из которых двоичные, а остальные непрерывны в диапазоне [0,1]). Набор данных содержит 66171 отрицательный пример и только 71 положительный пример. Набор данных ( arff текстовый...

129 просмотров

matlab classification feature-selection dimensionality-reduction weka

18.12.2023

Feature_importances в scikit узнайте, как выбрать правильные параметры?

Моя задача — понять, какие функции (расположенные в столбцах набора данных X) лучше всего предсказывают целевую переменную — y. Я решил использовать feature_importances_ в RandomForestClassifier. RandomForestClassifier имеет лучший результат...

428 просмотров

scikit-learn random-forest feature-selection

12.10.2022

Сборка конвейера sklearn + вложенная перекрестная проверка для регрессии KNN

Я пытаюсь понять, как создать рабочий процесс для sklearn.neighbors.KNeighborsRegressor , который включает: нормализовать особенности выбор функций (лучшее подмножество из 20 числовых функций, без конкретного итога) перекрестная проверка...

2633 просмотров

python pipeline hyperparameters scikit-learn feature-selection

20.02.2024

Как справиться с различиями в функциях моих тренировочных и тестовых данных

Итак, в настоящее время мои наборы для обучения и тестирования начинаются с 669 функций, многие из которых являются категориальными и требуют быстрого кодирования. После однократного кодирования обоих наборов я обнаружил, что обучающий набор имеет...

526 просмотров

python machine-learning feature-selection

14.04.2024

выбор признаков с помощью varimp

# ensure results are repeatable set.seed(7) # load the library library(mlbench) library(caret) library(randomForest) # load the dataset data(liver) # prepare training scheme control1 <- trainControl(method="repeatedcv", number=10, repeats=3) #...

172 просмотров

machine-learning feature-selection

17.10.2022

SkLearn: Feature Union со словарем и текстовыми данными

У меня есть DataFrame, например: text_data worker_dicts outcomes 0 "Some string" {"Sector":"Finance", 0 "State: NJ"} 1 "Another...

733 просмотров

python-3.x scikit-learn feature-selection

07.02.2024

Переменные важности графика xgboost Python

Когда я рисую важность функции, я получаю этот беспорядочный график. У меня более 7000 переменных. Я понимаю, что встроенная функция выбирает только самые важные, хотя окончательный график не читается. Это полный код: import numpy as np import...

12672 просмотров

python machine-learning matplotlib xgboost feature-selection

23.09.2022

SelectKBest ValueError после логарифмического преобразования целевой переменной

В настоящее время я делаю некоторый анализ набора данных о ценах на жилье в Эймсе, штат Айова. Я успешно обработал данные и удалил все пропущенные значения и т. д., и я собираюсь провести регрессионный анализ. Я хочу построить три модели регрессии:...

185 просмотров

python scikit-learn sklearn-pandas valueerror feature-selection

31.05.2024

Трехмерные входные данные для случайной регрессии леса

Проблема Глядя на примеры регрессии случайного леса Sklearn, например с набором данных IRIS , входными данными являются векторы размера [n_samples, n_features] : slen swid plen pwid 5.1 3.5 1.4 0.2 4.9 3.0 1.4...

338 просмотров

python machine-learning regression random-forest feature-selection

23.05.2024

Регрессия выбора функций о Scikit-learn

У меня есть файл данных excel, включая предикторы и цель/ответ. Я назвал цель «РЯДОМ», и у каждого предиктора есть свое имя. Для изучения выбора признаков я использовал этот код, но что-то пошло не так, и я не мог понять влияние каждого из...

90 просмотров

python machine-learning neural-network scikit-learn feature-selection

31.01.2024

Какова мотивация перекрестной проверки предварительной обработки выбора функций?

Я видел несколько статей и примеров выбора функций (обертка и встроенные методы), в которых образцы данных разбивались на обучающие и тестовые наборы. Я понимаю, почему нам нужно использовать перекрестную проверку (разделить данные на набор для...

119 просмотров

machine-learning cross-validation feature-selection

10.02.2024

sklearn случайный лес, чтобы найти количество выбранных функций

Я пытаюсь понять, насколько актуальна оценка, которую получила каждая выбранная функция. Я пробовал это до сих пор: classifier = SelectFromModel(RandomForestClassifier(n_estimators = 100)) m = classifier.fit(train.drop(columns='indicator'),...

57 просмотров

python machine-learning scikit-learn feature-selection

18.12.2023

в чем разница между классификацией текста и выделением признаков

можем ли мы выбрать функции без классификации, и если у меня есть текст, как я могу узнать, какие функции выбрать? Мне нужен пример относительно текста, а не реального примера объекта слова. если кто-нибудь может объяснить, пожалуйста?

81 просмотров

machine-learning text-classification feature-selection

30.05.2024

Объяснение коэффициента корреляции - выбор признаков

Как определить переменные, которые нужно удалить из нашей модели, на основе коэффициента корреляции. См. ниже Пример переменных: Top 10 Absolute Correlations: Variable 1 Variable 2 Correlation Value pdays pmonths...

924 просмотров

python correlation heatmap feature-selection

23.01.2024