Получаване на резултат от празен клъстер с команда vectordump в алгоритъма mahout kmeans

инсталирах и стартирах hadoop и изпълнявам командите по-долу

mahout seqdirectory -c UTF-8 -i Input_files -o seqfiles

mahout seq2sparse -i seqfiles/ -o vectorfiles/ -ow

mahout kmeans -i vectorfiles/tf-vectors/ -c initial-clusters -o kmeans-clusters -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cd 1.0 -k 20 -x 20 -cl

mahout clusterdump -dt sequencefile -d vectorfiles/dictionary.file-0 -i kmeans-clusters/clusters-1-final -o result.txt -b 10 -n 10

и когато отворя моя result.txt, той ми дава

VL-1{n=2 c= all:1.00
     Top Terms:

по-долу е моят текстов примерен текстов файл

John is working in London

Моля, предложете ми как да получа клъстерите за моя примерен текстов файл

linux k-means mahout

user2609542 06.08.2013 източник

Отговори (1)

arrow_upward
0
arrow_downward

Само един ред не е достатъчен. Направих малко хакове

Просто създайте един фиктивен файл в папка Input_files с фиктивни думи в него.

Ще тече. Моля, уведомете ме, ако намерите по-добро решение

Karm 15.08.2013

Получаване на резултат от празен клъстер с команда vectordump в алгоритъма mahout kmeans

Отговори (1)

Подобни въпроси