Использование критерия хи-квадрат для выбора признаков

У меня всегда возникают проблемы с пониманием значения критерия хи-квадрат и того, как его использовать для выбора признаков. Я пытался читать вики-страницу, но не получил практического понимания. Кто-нибудь может объяснить?


person user2464953    schedule 05.02.2014    source источник
comment
Вы понимаете тест хи-квадрат в целом? Для выбора признаков он ищет отклонения от наблюдений, предсказанных нулевой гипотезой о том, что распределение признаков не зависит от класса.   -  person Ben Allison    schedule 05.02.2014
comment
вместо этого попробуйте задать его на stats.stackexchange.com.   -  person SlimJim    schedule 08.02.2014


Ответы (2)


Тест хи-квадрат помогает определить наиболее значимые функции среди списка доступных функций путем определения корреляции между переменными функций и целевой переменной.

Пример ниже взят из https://chrisalbon.com/machine-learning/chi-squared_for_feature_selection.html

Приведенный ниже тест выберет две лучшие функции (поскольку мы присваиваем 2 параметру «k») среди 4 доступных функций изначально.

# Load libraries
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# Load iris data
iris = load_iris()

# Create features and target
X = iris.data
y = iris.target

# Convert to categorical data by converting data to integers
X = X.astype(int)

# Select two features with highest chi-squared statistics
chi2_selector = SelectKBest(chi2, k=2)
X_kbest = chi2_selector.fit_transform(X, y)
type(X_kbest)

# Show results
print('Original number of features:', X.shape[1])
print('Reduced number of features:', X_kbest.shape[1])
person JKC    schedule 19.11.2017

Выбор признаков по методу хи-квадрат — это однофакторный метод выбора признаков для категориальных переменных. Его также можно использовать для непрерывной переменной, но сначала необходимо классифицировать непрерывную переменную.

Как это работает?

Он проверяет нулевую гипотезу о том, что класс результата зависит от категориальной переменной, путем вычисления статистики хи-квадрат на основе таблицы непредвиденных обстоятельств. Дополнительные сведения о таблице непредвиденных обстоятельств и тесте хи-квадрат см. в видео: https://www.youtube.com/watch?v=misMgRRV3jQ

Для категоризации непрерывных данных существует ряд методов, доступных от упрощенного бинирования на основе частоты до передовых подходов, таких как метод минимальной длины описания и методы бинирования на основе энтропии.

Преимущество использования критерия хи-квадрат для непрерывной переменной заключается в том, что он может фиксировать нелинейную связь с переменной результата.

person Ravi Yadav    schedule 17.04.2018