Mahout LDA: какой самый большой размер словаря, который можно практически использовать?

Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2?

В идеале я хотел бы запустить LDA на корпусе из 3 миллионов документов (1 миллиард токенов) со словарем из 20 миллионов токенов.

Я пробовал другие реализации LDA с уменьшением карты (hadoop-lda, г-н LDA), и мне не удалось масштабировать его очень далеко (пожалуйста, докажите, что я ошибаюсь!)

Renaud 06.12.2012 источник

Ответы (1)

arrow_upward
0
arrow_downward

Лучшее место для таких вопросов — список рассылки Mahout [1]. Я сам не пробовал реализацию LDA, но она была предоставлена твиттером, поэтому я предполагаю, что она должна соответствовать вашим потребностям в масштабе.

Я уверен, что люди из списка рассылки могут дать вам лучший ответ.

[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives

ssc 08.12.2012

Mahout LDA: какой самый большой размер словаря, который можно практически использовать?

Ответы (1)

Похожие вопросы