Для кластеризации документов. лучше всего использовать алгоритм k-средних. Если вы знаете, сколько типов документов у вас есть, вы знаете, что такое k.
Чтобы заставить его работать с документами:
а) скажем, выбрать начальные k документов случайным образом.
b) Назначьте каждый документ кластеру, используя минимальное расстояние для документа с кластером.
c) После того, как документы назначены кластеру, создайте K новых документов в качестве кластера, взяв центр тяжести каждого кластера.
Теперь вопрос
а) Как рассчитать расстояние между двумя документами: Это не что иное, как косинусное сходство терминов документов с исходным кластером. Термины здесь не что иное, как TF-IDF(ранее рассчитываются для каждого документа)
б) Центроид должен быть: сумма TF-IDF данного термина/номер. документов. Сделайте это для всех возможных терминов в кластере. это даст вам еще один n-мерный документ.
Надеюсь, это поможет!
person
Kapil D
schedule
02.04.2010