У меня всегда возникают проблемы с пониманием значения критерия хи-квадрат и того, как его использовать для выбора признаков. Я пытался читать вики-страницу, но не получил практического понимания. Кто-нибудь может объяснить?
Использование критерия хи-квадрат для выбора признаков
Ответы (2)
Тест хи-квадрат помогает определить наиболее значимые функции среди списка доступных функций путем определения корреляции между переменными функций и целевой переменной.
Пример ниже взят из https://chrisalbon.com/machine-learning/chi-squared_for_feature_selection.html
Приведенный ниже тест выберет две лучшие функции (поскольку мы присваиваем 2 параметру «k») среди 4 доступных функций изначально.
# Load libraries
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# Load iris data
iris = load_iris()
# Create features and target
X = iris.data
y = iris.target
# Convert to categorical data by converting data to integers
X = X.astype(int)
# Select two features with highest chi-squared statistics
chi2_selector = SelectKBest(chi2, k=2)
X_kbest = chi2_selector.fit_transform(X, y)
type(X_kbest)
# Show results
print('Original number of features:', X.shape[1])
print('Reduced number of features:', X_kbest.shape[1])
Выбор признаков по методу хи-квадрат — это однофакторный метод выбора признаков для категориальных переменных. Его также можно использовать для непрерывной переменной, но сначала необходимо классифицировать непрерывную переменную.
Как это работает?
Он проверяет нулевую гипотезу о том, что класс результата зависит от категориальной переменной, путем вычисления статистики хи-квадрат на основе таблицы непредвиденных обстоятельств. Дополнительные сведения о таблице непредвиденных обстоятельств и тесте хи-квадрат см. в видео: https://www.youtube.com/watch?v=misMgRRV3jQ
Для категоризации непрерывных данных существует ряд методов, доступных от упрощенного бинирования на основе частоты до передовых подходов, таких как метод минимальной длины описания и методы бинирования на основе энтропии.
Преимущество использования критерия хи-квадрат для непрерывной переменной заключается в том, что он может фиксировать нелинейную связь с переменной результата.