Изчертаване на ROC крива в glmnet

РЕДАКТИРАНЕ: Както Dwin посочи в коментарите, кодът по-долу не е за ROC крива. ROC кривата трябва да бъде индексирана във вариант в t, а не в lambda (както аз правя по-долу). Ще редактирам кода по-долу, когато имам възможност.

По-долу е моят опит да създам ROC крива на glmnet, предвиждаща двоичен резултат. Симулирах матрица, която приближава резултатите от glmnet в кода по-долу. Както някои от вас знаят, при дадена n x p матрица от входове, glmnet извежда n x 100 матрица от прогнозирани вероятности [$\Pr (y_i = 1)$] за 100 различни стойности на ламбда. Резултатът ще бъде по-тесен от 100, ако по-нататъшните промени в ламбда спрат да увеличават силата на прогнозиране. Симулираната матрица на прогнозираните вероятности на glmnet по-долу е матрица 250x69.

Първо, има ли по-лесен начин за начертаване на ROC крива на glmnet? Второ, ако не, подходът по-долу изглежда ли правилен? Трето, грижа ли ме е да начертая (1) вероятността от фалшиви/истински положителни резултати ИЛИ (2) просто наблюдаваната честота на фалшиви/истински положителни резултати?

set.seed(06511)

# Simulate predictions matrix
phat = as.matrix(rnorm(250,mean=0.35, sd = 0.12))
lambda_effect = as.matrix(seq(from = 1.01, to = 1.35, by = 0.005))
phat = phat %*% t(lambda_effect)


#Choose a cut-point
t = 0.5

#Define a predictions matrix
predictions = ifelse(phat >= t, 1, 0)

##Simulate y matrix
y_phat = apply(phat, 1, mean) + rnorm(250,0.05,0.10)
y_obs = ifelse(y_phat >= 0.55, 1, 0)

#percentage of 1 observations in the validation set, 
p = length(which(y_obs==1))/length(y_obs)

#   dim(testframe2_e2)

#probability of the model predicting 1 while the true value of the observation is 0, 
apply(predictions, 1, sum)

## Count false positives for each model
## False pos ==1, correct == 0, false neg == -1
error_mat = predictions - y_obs
## Define a matrix that isolates false positives
error_mat_fp = ifelse(error_mat ==1, 1, 0)
false_pos_rate = apply(error_mat_fp, 2,  sum)/length(y_obs)

# Count true positives for each model
## True pos == 2, mistakes == 1, true neg == 0
error_mat2 = predictions + y_obs
## Isolate true positives
error_mat_tp = ifelse(error_mat2 ==2, 1, 0)
true_pos_rate = apply(error_mat_tp, 2,  sum)/length(y_obs)


## Do I care about (1) this probability OR (2) simply the observed rate?
## (1)
#probability of false-positive, 
p_fp = false_pos_rate/(1-p)
#probability of true-positive, 
p_tp = true_pos_rate/p

#plot the ROC, 
plot(p_fp, p_tp)


## (2)
plot(false_pos_rate, true_pos_rate)

Има един въпрос относно това в SO, но отговорът беше груб и не съвсем правилен: glmnet lasso ROC диаграми


person Dr. Beeblebrox    schedule 08.08.2013    source източник
comment
Графиката на точността на прогнозата като функция на ламбда НЕ е ROC крива.   -  person IRTFM    schedule 08.08.2013
comment
@DWin Искате да кажете, че наистина е ROC крива само ако входът, който променяме, е прагът на дискриминация, тук t?   -  person Dr. Beeblebrox    schedule 08.08.2013
comment
Да, точно това казва.   -  person Hong Ooi    schedule 08.08.2013
comment
От една страна, ROC кривата е монотонна, докато кривата (на която не виждам име, дадено в моите препратки), която описвате, не е, поне ако е в OOB или данните за валидиране.   -  person IRTFM    schedule 08.08.2013
comment
@HongOoi +1 и DWin +1 Благодаря, че посочихте това. Ще редактирам въпроса съответно. Все още съм заседнал с основния въпрос, как да изведа ROC крива от glmnet резултати. Освен това, защо не можах да начертая FPR спрямо TPR през стойностите на ламбда, за да избера ламбда? Това не е ROC крива, но не би ли все пак било полезно?   -  person Dr. Beeblebrox    schedule 08.08.2013
comment
Изпълних този код и бях изненадан да видя едновременно нарастващи FPR и FNR. Не трябва да разбирам какво измерват тези. Не се ли очаква от тях да имат реципрочна връзка?   -  person IRTFM    schedule 09.08.2013
comment
TPR/FPR на ROC представлява вероятността за получаване на истинска позиция при определен вероятностен праг, така че всяка ламбда ще има пълен спектър от вероятности от 0 до 1 на ROC. Можете да разгледате площта под кривата за различни ламбда, което по същество обобщава колко по-вероятно е вашият модел да произведе TPR отколкото FPR.   -  person NiuBiBang    schedule 04.08.2014


Отговори (2)


Опция, която използва ROCR за изчисляване на AUC и начертаване на ROC крива:

library(ROCR)
library(glmnet)
library(caret)

df <- data.matrix(… ) # dataframe w/ predictor variables & a response variable
                      # col1 = response var; # cols 2:10 = predictor vars

# Create training subset for model development & testing set for model performance testing
inTrain <- createDataPartition(df$ResponsVar, p = .75, list = FALSE)
Train <- df[ inTrain, ]
Test <- df[ -inTrain, ]

# Run model over training dataset
lasso.model <- cv.glmnet(x = Train[,2:10], y = Train[,1], 
                         family = 'binomial', type.measure = 'auc')

# Apply model to testing dataset
Test$lasso.prob <- predict(lasso.model,type="response", 
                           newx = Test[,2:10], s = 'lambda.min')
pred <- prediction(Test$lasso.prob, Test$ResponseVar)

# calculate probabilities for TPR/FPR for predictions
perf <- performance(pred,"tpr","fpr")
performance(pred,"auc") # shows calculated AUC for model
plot(perf,colorize=FALSE, col="black") # plot ROC curve
lines(c(0,1),c(0,1),col = "gray", lty = 4 )

За Test$lasso.prob по-горе можете да въведете различни ламбда, за да тествате предсказващата сила при всяка стойност.

person NiuBiBang    schedule 04.08.2014

С прогнози и етикети, ето как да създадете основна ROC крива

# randomly generated data for example, binary outcome
predictions = runif(100, min=0, max=1) 
labels = as.numeric(predictions > 0.5) 
labels[1:10] = abs(labels[1:10] - 1) # randomly make some labels not match predictions

# source: https://blog.revolutionanalytics.com/2016/08/roc-curves-in-two-lines-of-code.html
labels_reordered = labels[order(predictions, decreasing=TRUE)]
roc_dat = data.frame(TPR=cumsum(labels_reordered)/sum(labels_reordered), FPR=cumsum(!labels_reordered)/sum(!labels_reordered))

# plot the roc curve
plot(roc_dat$FPR, roc_dat$TPR)

генериран график

person Leo Brueggeman    schedule 26.03.2019