Получение результата пустого кластера с помощью команды vectordump в алгоритме mahout kmeans

я установил и запустил hadoop и выполнил следующие команды

mahout seqdirectory -c UTF-8 -i Input_files -o seqfiles

mahout seq2sparse -i seqfiles/ -o vectorfiles/ -ow

mahout kmeans -i vectorfiles/tf-vectors/ -c initial-clusters -o kmeans-clusters -dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cd 1.0 -k 20 -x 20 -cl

mahout clusterdump -dt sequencefile -d vectorfiles/dictionary.file-0 -i kmeans-clusters/clusters-1-final -o result.txt -b 10 -n 10

и когда я открываю свой результат.txt, он дает мне

VL-1{n=2 c= all:1.00
     Top Terms:

ниже мой текстовый файл образца текста

John is working in London

Пожалуйста, предложите мне, как получить кластеры для моего текстового файла примера


person user2609542    schedule 06.08.2013    source источник


Ответы (1)


Одной строки недостаточно. я сделал хак

  • Просто создайте один фиктивный файл в папке Input_files с фиктивными словами.

Он будет работать. Пожалуйста, дайте мне знать, если вы получите лучшее решение

person Karm    schedule 15.08.2013