Функция кластеризации R Hclust Цикл и разработка таблицы

Я работаю над проектом интеллектуального анализа текста/кластеризации и пытаюсь создать таблицу, содержащую количество кластеров в виде строк и 6 столбцов, представляющих следующие 6 показателей: максимальный диаметр, минимальное разделение, среднее. в пределах, среднее. между, avg.silwidth, dunn.

Мне нужно создать таблицы для 3-х методов - kmeans, pam и hclust.

Я смог создать что-то для kmeans

dtm0.90Dist = dist(dtm0.90)

foreachcluster = function(k) { 
  kmeans.result = kmeans(dtm0.90, k);
  kmeans.stats = cluster.stats(dtm0.90Dist,kmeans.result$cluster); 
                              c(kmeans.stats$min.separation, kmeans.stats$max.diameter,
                               kmeans.stats$average.within, kmeans.stats$avearge.between,
                               kmeans.stats$avg.silwidth, kmeans.stats$dunn) 
}
rbind(foreachcluster(2), foreachcluster(3), foreachcluster(4), foreachcluster(5),
      foreachcluster(6), foreachcluster(7),foreachcluster(8))

и я получаю следующий вывод

       [,1]     [,2]     [,3]      [,4]       [,5]
[1,] 3.162278 30.19934 5.831550 0.5403872 0.10471348
[2,] 2.236068 28.37252 5.006058 0.3923446 0.07881104
[3,] 1.000000 28.37252 4.995478 0.2496066 0.03524537
[4,] 1.000000 26.40076 4.387212 0.2633338 0.03787770
[5,] 1.000000 26.40076 4.353248 0.2681947 0.03787770
[6,] 1.000000 26.40076 4.163757 0.1633954 0.03787770
[7,] 1.000000 26.40076 4.128927 0.2676423 0.03787770

Мне нужен аналогичный вывод для методов hclust и pam, но я не могу заставить одну и ту же функцию работать ни для одного из двух методов.

Итак, я смог создать функцию для HCLUST.

forhclust=function(k){dfDist = dist(dtm0.90);
                      hclust.result = hclust(dfDist);
                      hclust.cluster = (cutree(hclust.result, k));
                      cluster.stats(dfDist,hclust.cluster);c(cluster.stats$min.separation)}

Но я получаю сообщение об ошибке, когда я запускаю это

Error in cluster.stats$min.separation : 
  object of type 'closure' is not subsettable

Мне нужно, чтобы он печатал вывод «min.separation».

Я был бы очень признателен за всю помощь и, возможно, за некоторые советы, чтобы понять, почему мой подход терпит неудачу в hclust.

Кроме того, есть ли хороший источник, который может шаг за шагом подробно объяснить функционирование и применение этих методов?

Благодарю вас


person Freewill    schedule 21.03.2014    source источник


Ответы (1)


foreachcluster2 = function(k) { 
  hc = hclust(mDist, method = "ave")
  hresult = cutree(hc, k)
  h.stats = cluster.stats(mDist,hresult); 
  c( max.dia=h.stats$max.diameter, 
     min.sep=h.stats$min.separation,
     avg.wi=h.stats$average.within, 
     avg.bw=h.stats$average.between,
     silwidth=h.stats$avg.silwidth, 
     dunn=h.stats$dunn) 
}
t2 = rbind(foreachcluster2(2), foreachcluster2(3), foreachcluster2(4),     foreachcluster2(5),foreachcluster2(6),
       foreachcluster2(7), foreachcluster2(8), foreachcluster2(9), foreachcluster2(10), 
       foreachcluster2(11), foreachcluster2(12),foreachcluster2(13),foreachcluster2(14))
rownames(t2) = 2:14
t2

Это должно работать. Для пэм():

pamC <- pam(x=m, k=2)
pamC
pamC$clustering

используйте $clustering вместо $cluster, остальное то же самое.

person yanxiang    schedule 23.05.2014