Я хочу использовать тематическое моделирование и нашел, что MALLET подходит мне.
Я успешно создал свою первую демонстрацию, используя около 0,1 миллиона документов. Теперь, согласно моим требованиям, мне приходится иметь дело с 10 миллионами документов, которые я не могу обрабатывать дальше. Можно ли добавить новые документы в существующую модель темы или что-то вроде создания двух моделей и их слияния в одну модель и получения результата путем слияния всех моделей, потому что маллет не может обрабатывать такие большие документы за один раз, для которых я думаю пакетно модели и получить результат, объединив все документы
Скажем, например, я сделаю 100 пакетов из 0,1 миллиона документов и запущу молоток для каждого пакета и, наконец, получу результат, объединив все 100 пакетов
Спасибо