Mahout LDA: кой е най-големият размер на речника, който практически може да се използва?

Пускам LDA на Mahout на EC2 (използвайки Whirr). Кой е най-големият речник, който успяхте да използвате на практика? Бихте ли споделили някои настройки на Hadoop/EC2?

В идеалния случай бих искал да стартирам LDA на корпус от 3M документи (1B токени), с речник от 20M токени.

Опитах други реализации на LDA за намаляване на картата (hadoop-lda, г-н LDA) и не успях да го мащабирам много (моля, докажете ми, че греша!)


person Renaud    schedule 06.12.2012    source източник


Отговори (1)


най-доброто място за такива въпроси е пощенският списък на Mahout [1]. Самият аз не съм опитвал внедряването на LDA, но е предоставено от twitter, така че предполагам, че трябва да отговаря на вашите нужди от мащаб.

Сигурен съм обаче, че хората в списъка с имейли могат да ви дадат по-добър отговор.

[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives

person ssc    schedule 08.12.2012