Независимость между двумя количественными переменными

Я хочу проверить, есть ли зависимость между двумя качественными переменными. Перед использованием любого теста я рисую geom_bar().

Гистограмма

Для меня совершенно очевидно, что при факторной переменной, равной 1, зависимая переменная чаще равна 3, чем при факторной переменной, равной 0. А когда факторная переменная равна 0, зависимая переменная равна чаще равен 2, чем когда факторная переменная равна 1.

Но если я выполняю chisq.test или fisher.test, я получаю p-значение, превышающее 0,3, что означает, что две качественные переменные независимы. Но я не очень понимаю, почему тест не имеет значения. Для выполнения тестов я использовал следующий код:

chisq.test(table(variable1,variable2))

где переменная1 и переменная2 являются категориальными переменными

Заранее спасибо за вашу помощь,

C


person chlooo    schedule 11.05.2021    source источник
comment
Нам действительно нужно увидеть данные. Существенная разница связана с размером выборки, поэтому гистограмма процентных значений не помогает. Используйте dput(variable1) и dput(variable2) и вставьте результаты в свой вопрос в качестве примера кода.   -  person dcarlson    schedule 11.05.2021


Ответы (1)


Вот подробный способ:

#function borrowed from https://stackoverflow.com/a/32544987/4938484
#to maintain the right sum of entries when rounding
smart.round <- function(x) {
  y <- floor(x)
  indices <- tail(order(x-y), round(sum(x)) - sum(y))
  y[indices] <- y[indices] + 1
  y
}

N = 100 #change to appropriate sample size
tab <- matrix(c(8.1, 51.4, 40.5, 3.7, 37.0, 59.3), ncol=3, byrow=TRUE)
tab <- smart.round(tab/100 * N)
#values in tab were assigned from your bar chart
rownames(tab) <- c("0", "1")
colnames(tab) <- c("1", "2","3")
tab <- as.table(tab)
chisq.test(tab)
#which gives p-value = 0.03
person Recap_Hessian    schedule 11.05.2021
comment
@user20650 user20650 Да, вероятно, неточно применять проценты. В идеале они должны умножить все записи таблицы на размер выборки. - person Recap_Hessian; 11.05.2021
comment
согласованный; Я думаю, что код в вопросе выглядит правильно. Для OP, возможно, количество / n мало, поэтому не имеет значения. Просто показ % может ввести в заблуждение. - person user20650; 11.05.2021
comment
@ user20650 Обновлено, чтобы отразить это. - person Recap_Hessian; 11.05.2021