Преглед и внедряване в R

Можете ли да познаете каква е общата връзка в променливите, споменати по-долу:

  • Ниво на удовлетвореност от работата —Недоволен, Доволен, Силно доволен
  • Представяне на дадено лице — Слабо, задоволително, отлично
  • Въздействие на регулация върху ефективността на банката — Положително, Неутрално, Отрицателно

Променливите са не само категорични, но и следват ред (ниско към високо / високо към ниско).

Ако искаме да предвидим такива многокласови подредени променливи, тогава можем да използваме техниката на логистична регресия на пропорционалните шансове.

Обективен

За да разберем работата на подредената логистична регресия, ще разгледаме проучване от World Values ​​Surveys, което разглежда факторите, които влияят върху възприятието на хората за усилията на правителството за намаляване на бедността.

Нашата цел е да прогнозираме възприятието на индивида относно усилията на правителството да намали бедността въз основа на фактори като страната, пола, възрастта и т.н. на индивида. В дадения казус възприятието на индивида може да приеме следните три стойности - Твърде малко, Приблизително правилно, Твърде много.

За нашия анализ ще използваме данни от Световните проучвания на ценностите за Австралия, Норвегия, Швеция и Съединените щати от пакета „carData“ в R.

library(carData)
library(MASS)
data(WVS) 
head(WVS)

Описание на данните

Бедносттае подредена зависима променлива от множество класове с категории — „Твърде малко“, „Приблизително правилно“ и „Твърде много“. Имаме следните пет независими променливи

  • Религия: член на религия - не или да
  • Деплома: притежаване на университетска диплома - не или да
  • Държава: Австралия, Норвегия, Швеция или САЩ
  • Възраст: възраст (години)
  • Пол: мъж или жена

Нека сега анализираме описателната статистика за този набор от данни:

summary(WVS)

Можем също да анализираме разпределението на бедността по възраст, пол и държава

ggplot(WVS, aes(x = poverty, y = age, fill = poverty)) +   geom_boxplot(size = .75) +   facet_grid(country ~ gender, margins = FALSE) +   theme(axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1))

Монтиране на модела

Сега ще напаснем модела на логистична регресия на пропорционалните коефициенти, като използваме функцията polrот пакета MASS.

model_fit <- polr(poverty~religion+degree+country+age+gender, data = WVS, Hess = TRUE)
summary(model_fit)

В резултата по-горе получаваме информация за

  • Моделно уравнение
  • Коефициентите на регресия с техните стойности, стандартни грешки и t стойност. По подразбиране няма тест за значимост, но можем да изчислим p-стойността, като сравним t стойността със стандартното нормално разпределение.
  • Оценки за две прихващания
  • Остатъчно отклонение и AIC, които се използват при сравняване на производителността на различни модели

Значението на коефициентите и отсечките

summary_table <- coef(summary(model_fit))
pval <- pnorm(abs(summary_table[, "t value"]),lower.tail = FALSE)* 2
summary_table <- cbind(summary_table, "p value" = round(pval,3))
summary_table

Тъй като p-стойността за всички променливи ‹0,05, следователно те са статистически значими при 95% CI

Тълкуване на модела на пропорционалните коефициенти

За да интерпретираме този модел, първо трябва да разберем работата на модела на пропорционалните шансове.

Нека J е общият брой категории на зависимата променлива и M е броят на независимите променливи (В дадения набор от данни J=3 и M = 5).

Математическата формулировка на модела на пропорционалните коефициенти е дадена по-долу

Тук j е нивото на подредена категория с J нива и i съответства на независими променливи

В нашия случай

  • j = 1 се отнася до „Твърде малко“
  • j = 2 се отнася до „Относно правилно“
  • j = 3 се отнася до „Твърде много“
  • i = 1 се отнася до „религия“
  • i = 2 се отнася до „степен“
  • i = 3 се отнася за „държава“
  • i = 4 се отнася до „възраст“
  • i = 5 се отнася до „пол“

Тълкуване на статистическите данни на модела на Фигура 4

Коефициенти:

  • Категоричните променливи като полмогат да се тълкуват като: индивид от мъжки пол, за разлика от индивид от жена, е свързан с по-голяма вероятност да има положително възприемане на усилията на правителството за намаляване на бедността. T-стойността е по-голяма от 2 и следователно е статистически значима на ниво от 5%.
  • Непрекъснатите променливи като възрастмогат да се тълкуват като: с една единица увеличение на възрастта логаритъмът на шансовете за положително възприемане на усилията на правителството за намаляване на бедността се увеличава с 0,011

Прехващания:

  • Математически, прихващането „Твърде малко | About Right’съответства на logit[P(Y ≤ 1)]. Може да се тълкува като дневник на шансовете да вярваме, че правителството прави „Твърде малко“ спрямо вярването, че правителството прави „Приблизително правилно“ или „Твърде много“
  • По същия начин прихващането „About Right | Твърде много“ съответства на logit[P(Y ≤ 2)].Може да се тълкува като дневник на шансовете да се вярва, че правителството прави ' Твърде малко“ или „Приблизително правилно“ срещу вярването, че правителството прави „Твърде много“

Правене на прогнози за нови данни

Да кажем, че искаме да предвидим вероятността, съответстваща на всяко възприятие за индивид — Test_Person със следните характеристики

  • Религия: да
  • Степен: не
  • Държава: Норвегия
  • Възраст: 30
  • Пол Мъж
  1. Математическо изчисление

Като използваме стойностите на отсечката и наклона от Резюмето на модела, можем да оценим желаните вероятности по следния начин

Вероятността, съответстваща на Твърде малко възприятие, ще бъде изчислена като:

logit[P(Y ≤ 1)] = 0,7298 -[(0,17973*1)+(0,14092*0)+(-0,32235*1)+(0,01114*30)+(0,17637*1)]

=› logit[P(Y ≤ 1)] =0,36185

=› P(Y ≤ 1)= exp(0,36185)/(1+exp(0,36185)) = 0,589

В нашия случай P(Y ≤ 1) = P(Y =1) = 0,589

По подобен начин вероятността, съответстваща на възприятието Относно правилното, ще бъде изчислена като:

logit[P(Y ≤ 2)] = 2,5325 -[(0,17973*1)+(0,14092*0)+(-0,32235*1)+(0,01114*30)+(0,17637*1)]

=› logit[P(Y ≤ 2)] =2,16455

=› P(Y ≤ 2)= exp(2,16455)/(1+exp(2,16455)) = 0,897

Следователно, P(Y = 2) = P(Y ≤ 2) — P(Y ≤ 1) = 0,897 -0,589

=> P(Y = 2) = 0.308

Вероятността, съответстваща на възприятието Твърде много ще бъде изчислена като:

Така P(Y = 3) = 1-P(Y ≤2)

=> P(Y = 3) = 0.103

2. Изчисление в R

За щастие, можем да заобиколим горното математическо изчисление, като използваме функцията predict в R

new_data <- data.frame("religion"= "yes","degree"="no","country"="Norway","age"=30,"gender"="male")
round(predict(model_fit,new_data,type = "p"), 3)

Нашият модел предвижда, че отделният Test_Personвярва, че усилията на правителството за намаляване на бедността са Твърде малки

Ако искате да научите повече за тази концепция, препоръчвам ви да преминете през следните връзки:

Благодаря!