Выполните перекрестную проверку на randomForest с помощью R

Я использую пакет randomForest для R для обучения модели классификации. Чтобы сравнить его с другими классификаторами, мне нужен способ отобразить всю информацию, предоставленную довольно подробным методом перекрестной проверки в Weka. Следовательно, R-скрипт должен вывести что-то вроде [a] из Weka.

  1. Есть ли способ проверить модель R через RWeka для получения этих показателей?
  2. Если нет, то как перекрестная проверка случайного леса выполняется исключительно в R?
  3. Можно ли здесь использовать rfcv из пакета randomForest? Я не мог заставить его работать.

Я знаю, что внештатная ошибка (OOB), используемая в randomForest, является своего рода перекрестной проверкой. Но мне нужна полная информация для подходящего сравнения.

То, что я пробовал до сих пор, используя R, это [b]. Однако код также выдает ошибку в моей настройке [c] из-за отсутствия значений.

Итак, вы можете помочь мне с перекрестной проверкой?


Приложение

[а] Века:

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances        3059               96.712  %
Incorrectly Classified Instances       104                3.288  %
Kappa statistic                          0.8199
Mean absolute error                      0.1017
Root mean squared error                  0.1771
Relative absolute error                 60.4205 %
Root relative squared error             61.103  %
Coverage of cases (0.95 level)          99.6206 %
Mean rel. region size (0.95 level)      78.043  %
Total Number of Instances             3163     

=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 0,918    0,028    0,771      0,918    0,838      0,824    0,985     0,901     sick-euthyroid
                 0,972    0,082    0,991      0,972    0,982      0,824    0,985     0,998     negative
Weighted Avg.    0,967    0,077    0,971      0,967    0,968      0,824    0,985     0,989     

=== Confusion Matrix ===

    a    b   <-- classified as
  269   24 |    a = sick-euthyroid
   80 2790 |    b = negative

[b] Код на данный момент:

library(randomForest) #randomForest() and rfImpute()
library(foreign) # read.arff()
library(caret) # train() and trainControl()

nTrees <- 2 # 200
myDataset <- 'D:\\your\\directory\\SE.arff' # http://hakank.org/weka/SE.arff

mydb = read.arff(myDataset)
mydb.imputed <- rfImpute(class ~ ., data=mydb, ntree = nTrees, importance = TRUE)
myres.rf <- randomForest(class ~ ., data=mydb.imputed, ntree = nTrees, importance = TRUE)
summary(myres.rf)

# specify type of resampling to 10-fold CV
fitControl <- trainControl(method = "rf",number = 10,repeats = 10)
set.seed(825)

# deal with NA | NULL values in categorical variables
#mydb.imputed[is.na(mydb.imputed)] <- 1
#mydb.imputed[is.null(mydb.imputed)] <- 1

rfFit <- train(class~ ., data=mydb.imputed,
             method = "rf",
             trControl = fitControl,
             ## This last option is actually one
             ## for rf() that passes through
             ntree = nTrees, importance = TRUE, na.action = na.omit)
rfFit

Ошибка:

Error in names(resamples) <- gsub("^\\.", "", names(resamples)) : 
  attempt to set an attribute on NULL

Использование traceback()

5: nominalTrainWorkflow(x = x, y = y, wts = weights, info = trainInfo, 
       method = models, ppOpts = preProcess, ctrl = trControl, lev = classLevels, 
       ...)
4: train.default(x, y, weights = w, ...)
3: train(x, y, weights = w, ...)
2: train.formula(class~ ., data = mydb.imputed, method = "rf", 
       trControl = fitControl, ntree = nTrees, importance = TRUE, 
       sampsize = rep(minorityClassNum, 2), na.action = na.omit)
1: train(class~ ., data = mydb.imputed, method = "rf", trControl = fitControl, 
       ntree = nTrees, importance = TRUE, sampsize = rep(minorityClassNum, 
           2), na.action = na.omit) at #39

[c] Информация о версии R через sessionInfo()

R version 3.1.0 (2014-04-10)
Platform: i386-w64-mingw32/i386 (32-bit)

[...]

other attached packages:
 [1] e1071_1.6-3        caret_6.0-30       ggplot2_1.0.0      foreign_0.8-61     randomForest_4.6-7 DMwR_0.4.1        
 [7] lattice_0.20-29    JGR_1.7-16         iplots_1.1-7       JavaGD_0.6-1       rJava_0.9-6

person mab    schedule 23.06.2014    source источник


Ответы (1)


Я не знаю о weka, но я занимался моделированием randomForest в R, и я всегда использовал функцию прогнозирования в R для этого.

Попробуйте использовать эту функцию

predict(Model,data)

Свяжите вывод с исходными значениями и используйте команду таблицы, чтобы получить матрицу путаницы.

person Koundy    schedule 23.06.2014
comment
Благодарю за ваш ответ. Однако я должен был отметить, что я уже пробовал myres.rf (или print(myres.rf)), чтобы получить матрицу путаницы. Который работает. Но мне нужен F-Measure и, возможно, ROC. Кстати, table(predict(myres.rf, mydb.imputed)) не выводит матрицу путаницы. - person mab; 23.06.2014
comment
Функция предсказания дает вам только идентификаторы образцов и метку предсказания. вам нужно добавить исходную метку, преобразовать во фрейм данных, а затем применить табличную функцию. - person Koundy; 23.06.2014
comment
Можете ли вы предоставить код для этого? Не удалось понять ту часть, где я должен добавить исходную метку. Следующее преобразование выполняется as.data.frame(), верно? - person mab; 24.06.2014
comment
Это не даст желаемого результата. это просто даст матрицу путаницы. - person Koundy; 25.06.2014
comment
PredictedLabels ‹- предсказать(RFModel,данные); datatable ‹- as.data.frame(PredictedLabels,OriginalLabels); таблица (данные) - person Koundy; 25.06.2014