Mallet: Актуални N-грами

Искам да стартирам mallet с помощта на опцията --use-ngrams true, но изглежда не мога да го накарам да работи. Импортирах данните си с помощта на:

./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords

Сега искам да обуча актуален ngram модел:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml

Но получавам тази грешка:

Exception in thread "main" java.lang.ClassCastException: cc.mallet.types.FeatureSequence cannot be cast to cc.mallet.types.FeatureSequenceWithBigrams
at cc.mallet.topics.TopicalNGrams.estimate(TopicalNGrams.java:78)
at cc.mallet.topics.tui.Vectors2Topics.main(Vectors2Topics.java:249)

Както можете да видите, аз използвам mallet като инструмент за команден ред и предпочитам да не навлизам в неговия API, за да го накарам да работи. Някакви предположения?


person akobre01    schedule 27.03.2012    source източник


Отговори (1)


Намерих отговора:

трябва да импортирате директорията, върху която искате да стартирате topical-ngram modeling, като използвате аргумента „--keep-sequence-bgirams“ (напр.

./bin/mallet import-dir --input path --output topic-input.mallet --keep-sequence-bigrams --remove-stopwords

И след това изпълнявате модела на темата като:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml
person akobre01    schedule 28.03.2012