Пускам LDA на Mahout на EC2 (използвайки Whirr). Кой е най-големият речник, който успяхте да използвате на практика? Бихте ли споделили някои настройки на Hadoop/EC2?
В идеалния случай бих искал да стартирам LDA на корпус от 3M документи (1B токени), с речник от 20M токени.
Опитах други реализации на LDA за намаляване на картата (hadoop-lda, г-н LDA) и не успях да го мащабирам много (моля, докажете ми, че греша!)