Как определить переменные, которые нужно удалить из нашей модели, на основе коэффициента корреляции.
См. ниже Пример переменных:
Top 10 Absolute Correlations:
Variable 1 Variable 2 Correlation Value
pdays pmonths 1.000000
emp.var.rate euribor3m 0.970955
euribor3m nr.employed 0.942545
emp.var.rate nr.employed 0.899818
previous pastEmail 0.798017
emp.var.rate cons.price.idx 0.763827
cons.price.idx euribor3m 0.670844
contact cons.price.idx 0.585899
previous nr.employed 0.504471
cons.price.idx nr.employed 0.490632
тепловая карта корреляционной матрицы независимых переменных":
Вопросы:
1) Как удалить одну переменную с высокой корреляцией из значения корреляции, рассчитанного между двумя переменными
Пример: значение корреляции между pdays и pmonths составляет 1,000000. Какую переменную нужно удалить из модели? Days или pmonths? Как определяется переменная?
2) Каков диапазон пороговых значений корреляции, при котором переменная отбрасывается? Например: >0,65 или >0,90 и т. д.
3) Не могли бы вы интерпретировать приведенную выше тепловую карту и дать свое объяснение переменных, которые необходимо удалить, и причину того же?