Маллет: Актуальные N-граммы

Я хочу запустить маллет с параметром --use-ngrams true, но не могу заставить его работать. Я импортировал свои данные, используя:

./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords

Теперь я хочу обучить актуальную модель ngram:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml

Но я получаю эту ошибку:

Exception in thread "main" java.lang.ClassCastException: cc.mallet.types.FeatureSequence cannot be cast to cc.mallet.types.FeatureSequenceWithBigrams
at cc.mallet.topics.TopicalNGrams.estimate(TopicalNGrams.java:78)
at cc.mallet.topics.tui.Vectors2Topics.main(Vectors2Topics.java:249)

Как видите, я запускаю маллет как инструмент командной строки и не хочу вникать в его API, чтобы заставить его работать. Какие-либо предложения?


person akobre01    schedule 27.03.2012    source источник


Ответы (1)


Нашел ответ:

вы должны импортировать каталог, в котором вы хотите запустить моделирование тематической ngram, используя аргумент '--keep-sequence-bgirams' (например,

./bin/mallet import-dir --input path --output topic-input.mallet --keep-sequence-bigrams --remove-stopwords

Затем вы запускаете модель темы как:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml
person akobre01    schedule 28.03.2012