Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2?
В идеале я хотел бы запустить LDA на корпусе из 3 миллионов документов (1 миллиард токенов) со словарем из 20 миллионов токенов.
Я пробовал другие реализации LDA с уменьшением карты (hadoop-lda, г-н LDA), и мне не удалось масштабировать его очень далеко (пожалуйста, докажите, что я ошибаюсь!)