Как выполнить кластеризацию по группам? Например, возьмем этот набор данных о покемонах на Kaggle.
Образец этого набора данных выглядит так (некоторые поля изменены, чтобы имитировать мои данные):
Name Type I Type II
Bulbasaur Grass Poison
Bulbasaur 2 Grass Poison
Venusaur Grass Not Null
VenusaurMega Venusaur Grass Not Null
...
Charizard Fire Flying
CharizardMega Charizard X Fire Dragon
Предположим, что в моем наборе данных нет нулей, как я могу сгруппировать по столбцам типа I и типа II соответственно, а затем сгруппировать по сходству между именами?
Вывод должен быть таким:
Name Type I Type II Cluster
Bulbasaur Grass Poison 1
Bulbasaur 2 Grass Poison 1
Venusaur Grass Not Null 2
VenusaurMega Venusaur Grass Not Null 2
...
Charizard Fire Flying 3
CharizardMega Charizard X Fire Dragon 4
Я попробовал метод, подобный показанному здесь, но он не работает с NbClust. функция, которую я использую.
clust <- NbClust(data, diss= string_dist, distance=NULL, min.nc = 2, max.nc = 125, method="ward.D2", index="ch")
?rleid
,... - person Tonio Liebrand   schedule 23.05.2017rleid
будет объединять непоследовательные появления одного и того же значения в отдельные группы. - person David Arenburg   schedule 25.05.2017