Публикации по теме 'feature-selection'
Как я улучшил свой результат в табличном соревновании Kaggle за август 2021 года, используя Generic Univariate select…
Kaggle — это ведущий в мире веб-сайт по науке о данных, на который стекаются энтузиасты науки о данных. Недавно меня впечатлил тот факт, что Kaggle теперь предлагает ежемесячные табличные соревнования, которые дают таким новичкам, как я, возможность улучшить свои навыки в этой области. Поскольку Kaggle предлагает прекрасную возможность улучшить свои навыки работы с данными, я всегда с нетерпением жду этих ежемесячных конкурсов и активно работаю над ними, если позволяет время. В то..
Методы выбора функций для классификации и советы Python по их применению
Учебное пособие о том, как использовать наиболее распространенные методы выбора признаков для задач классификации.
Выбор функций для использования - важный шаг в любом проекте машинного обучения и повторяющаяся задача в повседневной работе специалиста по данным. В этой статье я рассмотрю наиболее распространенные типы методов выбора признаков, используемых на практике для решения задач классификации, разделив их на 6 основных категорий. Я даю советы о том, как использовать их в..
Практическое руководство к методам выбора функций: гибридные методы
Часть 5: Объединение методов выбора фильтра, оболочки и встроенных функций
Эта статья является пятой из серии, посвященной практическим подходам к методам выбора функций. Если вы пропустили какие-либо другие сообщения, я бы порекомендовал их проверить:
Практическое руководство по методам выбора функций: введение . Практическое руководство по методам выбора функций: методы фильтрации . Практическое руководство к методам выбора функций: методы оболочки . Практическое..
Полные методы выбора функций 4–4 На основе модели
Обобщите интуицию выбора функций для модели на основе дерева и регрессии, а также некоторые распространенные стратегии выбора функций, такие как рекурсивное исключение функций, перестановка функций и исключение функций.
Полные методы выбора функций
Статистическое тестирование и анализ Корреляционный анализ Уменьшение размеров На основе модели
Модель на основе дерева
В процессе роста (или разделения) дерева решений дерево решений оценит все функции и..
Расширенные K-средние: контроль размеров групп и выбор функций
Несколько полезных настроек для K-средних
При использовании K-средних мы можем столкнуться с двумя проблемами:
В итоге мы получаем кластеры очень разных размеров , одни из которых содержат тысячи наблюдений, а другие - всего несколько В нашем наборе данных слишком много переменных , и алгоритм K-средних изо всех сил пытается определить оптимальный набор кластеров.
Ограниченные K-средние: контроль размера группы
Алгоритм основан на статье Bradley et al. и был реализован..
Простой в использовании выбор функции корреляции с помощью Kydavra
"Машинное обучение"
Простой в использовании выбор функции корреляции с помощью Kydavra
Почти каждый человек, занимающийся наукой о данных или машинным обучением, знает, что один из самых простых способов найти соответствующие функции для прогнозируемого значения y - это найти функции, которые наиболее коррелируют с y. Однако немногие (если не математики) знают, что существует много типов корреляции. В этой статье я вкратце расскажу вам о 3 самых популярных типах корреляции и о том,..
Вопросы по теме 'feature-selection'
Использование критерия хи-квадрат для выбора признаков
У меня всегда возникают проблемы с пониманием значения критерия хи-квадрат и того, как его использовать для выбора признаков. Я пытался читать вики-страницу, но не получил практического понимания. Кто-нибудь может объяснить?
2476 просмотров
schedule
03.04.2024
Применить выбор объектов к новому набору данных X
Плакат первый раз! Я действительно новичок в науке о данных и решил принять участие в конкурсе. Я написал некоторый код для выбора 10% лучших функций из моего набора обучающих данных X (9999 строк, 2000 столбцов).
Чего я не могу понять, так это...
199 просмотров
schedule
28.10.2023
Обучение предсказателя машинного обучения
Я пытался построить модель прогнозирования, используя данные пользователя. Ввод модели — это метаданные документов (дата публикации, название и т. д.), а метка документа — предпочтения этого пользователя (нравится/не нравится). Я хотел бы задать...
227 просмотров
schedule
12.06.2024
выбор оптимального количества функций с использованием PCA/LDA/MDS в scikit
Я хочу уменьшить возможности набора данных с помощью PCA, LDA и MDS. Но я также хочу сохранить 95% дисперсии.
Я не смог найти способ указать желаемую дисперсию в формулах для соответствующих алгоритмов. Один абзац кажется актуальным в API PCA...
905 просмотров
schedule
26.10.2023
Поиск по сетке гиперпараметров SVM-анова и получение выбранной функции в Sklearn
В документе sklearn есть пример SVM-Anova . Я хочу дополнительно сделать GridSearchCV для гиперпараметров, идентификатора, C и гаммы для SVM для каждого процентиля функций, используемых в примере, например:
transform =...
532 просмотров
schedule
02.02.2024
Как получить выбранные функции после сокращения LinearSVC в scikit
Название говорит само за себя, я проверил scikit , которые очень плохи для этой конкретной задачи, и я проверил несколько онлайн-ресурсов, включая этот пост.
Однако, похоже, они ошибаются. Для выбора функций мы можем сделать что-то вроде:...
561 просмотров
schedule
12.03.2024
Почему в этом наборе данных методом выбора подмножества выбрано слишком мало объектов
У меня есть набор данных классификации со 148 входными функциями (20 из которых двоичные, а остальные непрерывны в диапазоне [0,1]). Набор данных содержит 66171 отрицательный пример и только 71 положительный пример.
Набор данных ( arff текстовый...
129 просмотров
schedule
18.12.2023
Feature_importances в scikit узнайте, как выбрать правильные параметры?
Моя задача — понять, какие функции (расположенные в столбцах набора данных X) лучше всего предсказывают целевую переменную — y. Я решил использовать feature_importances_ в RandomForestClassifier. RandomForestClassifier имеет лучший результат...
428 просмотров
schedule
12.10.2022
Сборка конвейера sklearn + вложенная перекрестная проверка для регрессии KNN
Я пытаюсь понять, как создать рабочий процесс для sklearn.neighbors.KNeighborsRegressor , который включает:
нормализовать особенности
выбор функций (лучшее подмножество из 20 числовых функций, без конкретного итога)
перекрестная проверка...
2633 просмотров
schedule
20.02.2024
Как справиться с различиями в функциях моих тренировочных и тестовых данных
Итак, в настоящее время мои наборы для обучения и тестирования начинаются с 669 функций, многие из которых являются категориальными и требуют быстрого кодирования.
После однократного кодирования обоих наборов я обнаружил, что обучающий набор имеет...
526 просмотров
schedule
14.04.2024
выбор признаков с помощью varimp
# ensure results are repeatable
set.seed(7)
# load the library
library(mlbench)
library(caret)
library(randomForest)
# load the dataset
data(liver)
# prepare training scheme
control1 <- trainControl(method="repeatedcv", number=10, repeats=3)
#...
172 просмотров
schedule
17.10.2022
SkLearn: Feature Union со словарем и текстовыми данными
У меня есть DataFrame, например:
text_data worker_dicts outcomes
0 "Some string" {"Sector":"Finance", 0
"State: NJ"}
1 "Another...
733 просмотров
schedule
07.02.2024
Переменные важности графика xgboost Python
Когда я рисую важность функции, я получаю этот беспорядочный график. У меня более 7000 переменных. Я понимаю, что встроенная функция выбирает только самые важные, хотя окончательный график не читается. Это полный код:
import numpy as np
import...
12672 просмотров
schedule
23.09.2022
SelectKBest ValueError после логарифмического преобразования целевой переменной
В настоящее время я делаю некоторый анализ набора данных о ценах на жилье в Эймсе, штат Айова. Я успешно обработал данные и удалил все пропущенные значения и т. д., и я собираюсь провести регрессионный анализ. Я хочу построить три модели регрессии:...
185 просмотров
schedule
31.05.2024
Трехмерные входные данные для случайной регрессии леса
Проблема
Глядя на примеры регрессии случайного леса Sklearn, например с набором данных IRIS , входными данными являются векторы размера [n_samples, n_features] :
slen swid plen pwid
5.1 3.5 1.4 0.2
4.9 3.0 1.4...
338 просмотров
schedule
23.05.2024
Регрессия выбора функций о Scikit-learn
У меня есть файл данных excel, включая предикторы и цель/ответ. Я назвал цель «РЯДОМ», и у каждого предиктора есть свое имя. Для изучения выбора признаков я использовал этот код, но что-то пошло не так, и я не мог понять влияние каждого из...
90 просмотров
schedule
31.01.2024
Какова мотивация перекрестной проверки предварительной обработки выбора функций?
Я видел несколько статей и примеров выбора функций (обертка и встроенные методы), в которых образцы данных разбивались на обучающие и тестовые наборы.
Я понимаю, почему нам нужно использовать перекрестную проверку (разделить данные на набор для...
119 просмотров
schedule
10.02.2024
sklearn случайный лес, чтобы найти количество выбранных функций
Я пытаюсь понять, насколько актуальна оценка, которую получила каждая выбранная функция.
Я пробовал это до сих пор:
classifier =
SelectFromModel(RandomForestClassifier(n_estimators = 100))
m = classifier.fit(train.drop(columns='indicator'),...
57 просмотров
schedule
18.12.2023
в чем разница между классификацией текста и выделением признаков
можем ли мы выбрать функции без классификации, и если у меня есть текст, как я могу узнать, какие функции выбрать? Мне нужен пример относительно текста, а не реального примера объекта слова. если кто-нибудь может объяснить, пожалуйста?
81 просмотров
schedule
30.05.2024
Объяснение коэффициента корреляции - выбор признаков
Как определить переменные, которые нужно удалить из нашей модели, на основе коэффициента корреляции.
См. ниже Пример переменных:
Top 10 Absolute Correlations:
Variable 1 Variable 2 Correlation Value
pdays pmonths...
924 просмотров
schedule
23.01.2024