Mahout LDA: какой самый большой размер словаря, который можно практически использовать?

Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2?

В идеале я хотел бы запустить LDA на корпусе из 3 миллионов документов (1 миллиард токенов) со словарем из 20 миллионов токенов.

Я пробовал другие реализации LDA с уменьшением карты (hadoop-lda, г-н LDA), и мне не удалось масштабировать его очень далеко (пожалуйста, докажите, что я ошибаюсь!)


person Renaud    schedule 06.12.2012    source источник


Ответы (1)


Лучшее место для таких вопросов — список рассылки Mahout [1]. Я сам не пробовал реализацию LDA, но она была предоставлена ​​​​твиттером, поэтому я предполагаю, что она должна соответствовать вашим потребностям в масштабе.

Я уверен, что люди из списка рассылки могут дать вам лучший ответ.

[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives

person ssc    schedule 08.12.2012