Как добавить новые документы в существующую модель темы в mallet или создать пакетную модель для большого количества документов

Я хочу использовать тематическое моделирование и нашел, что MALLET подходит мне.
Я успешно создал свою первую демонстрацию, используя около 0,1 миллиона документов. Теперь, согласно моим требованиям, мне приходится иметь дело с 10 миллионами документов, которые я не могу обрабатывать дальше. Можно ли добавить новые документы в существующую модель темы или что-то вроде создания двух моделей и их слияния в одну модель и получения результата путем слияния всех моделей, потому что маллет не может обрабатывать такие большие документы за один раз, для которых я думаю пакетно модели и получить результат, объединив все документы
Скажем, например, я сделаю 100 пакетов из 0,1 миллиона документов и запущу молоток для каждого пакета и, наконец, получу результат, объединив все 100 пакетов

Спасибо


person Hardik Dobariya    schedule 29.10.2014    source источник


Ответы (1)


Я не думаю, что это возможно с Маллетом. Я не думаю, что после создания модели вы можете постепенно добавлять новые документы в обученную модель и повторно обучать ее.

Буду ждать, пока кто-нибудь поддержит или опровергнет мой ответ.

person London guy    schedule 15.01.2015