HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks
.
В документации указано, что max_chunks
— это количество фрагментов, которые будет проходить модель, и если это число больше, чем количество фрагментов в предоставленном корпусе, обучение будет проходить вокруг корпуса.
Поскольку журналы INFO предупредили меня, что функция правдоподобия уменьшается, я полагаю, что мне может потребоваться несколько проходов по корпусу для сходимости.
Модель LDA предоставляет с аргументом passes
функциональность для обучения на корпусе для нескольких итераций. Мне трудно понять, как max_chunks
в HDP сопоставляется с passes
в LDA.
Например, допустим, в моем корпусе 1000000 документов. каким именно должен быть max_chunks
, чтобы тренировать, скажем, 3 прохода на моем корпусе.
Любое предложение? Большое большое спасибо