Как получить косинусное сходство между двумя документами в MALLET?

У меня есть тематическая модель LDA, обученная с использованием MALLET, но я хочу вычислить косинусное сходство между двумя документами, чтобы получить сходство, но я не уверен, для какого файла, который выводит MALLET, я вычисляю косинус.

Моя функция подобия косинуса работает нормально, но я просто не уверен, что я сравниваю в MALLET.

Любая помощь будет оценена по достоинству!


person higz555    schedule 06.04.2017    source источник


Ответы (1)


Каждый документ будет представлен своей тематической композицией, поэтому вам нужно их сравнить. Используйте параметр --output-doc-topics, чтобы получить нужный файл.

Строки — это документы, а столбцы — пропорции каждой темы, принадлежащей документу. В текущей версии (2.0.8) столбцы сортируются по идентификатору темы по возрастанию, в противном случае они сортируются в порядке возрастания вероятности.

Вы также должны учитывать различные показатели, кроме косинусного сходства, например. (симметричное) расхождение Кульбака-Лейблера или расстояние Хеллингера.

person phly    schedule 22.04.2017