Получаване на резултат от празен клъстер с команда vectordump в алгоритъма mahout kmeans

инсталирах и стартирах hadoop и изпълнявам командите по-долу

mahout seqdirectory -c UTF-8 -i Input_files -o seqfiles

mahout seq2sparse -i seqfiles/ -o vectorfiles/ -ow

mahout kmeans -i vectorfiles/tf-vectors/ -c initial-clusters -o kmeans-clusters -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cd 1.0 -k 20 -x 20 -cl

mahout clusterdump -dt sequencefile -d vectorfiles/dictionary.file-0 -i kmeans-clusters/clusters-1-final -o result.txt -b 10 -n 10

и когато отворя моя result.txt, той ми дава

VL-1{n=2 c= all:1.00
     Top Terms:

по-долу е моят текстов примерен текстов файл

John is working in London

Моля, предложете ми как да получа клъстерите за моя примерен текстов файл


person user2609542    schedule 06.08.2013    source източник


Отговори (1)


Само един ред не е достатъчен. Направих малко хакове

  • Просто създайте един фиктивен файл в папка Input_files с фиктивни думи в него.

Ще тече. Моля, уведомете ме, ако намерите по-добро решение

person Karm    schedule 15.08.2013