Как мога да извърша групиране по групи? Например вземете този набор от данни за Pokemon на Kaggle.
Извадка от този набор от данни изглежда така (промених някои полета, за да имитират моите данни):
Name Type I Type II
Bulbasaur Grass Poison
Bulbasaur 2 Grass Poison
Venusaur Grass Not Null
VenusaurMega Venusaur Grass Not Null
...
Charizard Fire Flying
CharizardMega Charizard X Fire Dragon
Ако предположим, че няма нули в моя набор от данни, как мога да групирам съответно по колоните тип I и тип II и след това да групирам по сходство между имената?
Резултатът трябва да бъде така:
Name Type I Type II Cluster
Bulbasaur Grass Poison 1
Bulbasaur 2 Grass Poison 1
Venusaur Grass Not Null 2
VenusaurMega Venusaur Grass Not Null 2
...
Charizard Fire Flying 3
CharizardMega Charizard X Fire Dragon 4
Опитах метод, подобен на показания тук, но той не работи с NbClust функция, която използвам.
clust <- NbClust(data, diss= string_dist, distance=NULL, min.nc = 2, max.nc = 125, method="ward.D2", index="ch")
?rleid
,... - person Tonio Liebrand   schedule 23.05.2017rleid
ще групира непоследователни появявания на една и съща стойност в отделни групи. - person David Arenburg   schedule 25.05.2017