tf-idf: я правильно понимаю?

Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF.

Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу. Если у меня нет определенного запроса, как я могу применить tf-idf для кластеризации?


person alskndalsnd    schedule 29.03.2010    source источник


Ответы (3)


Для кластеризации документов. лучше всего использовать алгоритм k-средних. Если вы знаете, сколько типов документов у вас есть, вы знаете, что такое k.

Чтобы заставить его работать с документами:

а) скажем, выбрать начальные k документов случайным образом.

b) Назначьте каждый документ кластеру, используя минимальное расстояние для документа с кластером.

c) После того, как документы назначены кластеру, создайте K новых документов в качестве кластера, взяв центр тяжести каждого кластера.

Теперь вопрос

а) Как рассчитать расстояние между двумя документами: Это не что иное, как косинусное сходство терминов документов с исходным кластером. Термины здесь не что иное, как TF-IDF(ранее рассчитываются для каждого документа)

б) Центроид должен быть: сумма TF-IDF данного термина/номер. документов. Сделайте это для всех возможных терминов в кластере. это даст вам еще один n-мерный документ.

Надеюсь, это поможет!

person Kapil D    schedule 02.04.2010
comment
можете ли вы помочь с этим stackoverflow.com/questions /28642930/как-могу-вычислить-mtf-idf - person ; 21.02.2015
comment
скажем, у меня есть 3 таких документа {1.1, 0, 3.3, 4} {0, 2, 0, 3} {1, 1, 1, 1}, и их центроид {2.1/3, 3/3, 4.3/3, 8/3} верно? - person MonsterMMORPG; 06.09.2015

На самом деле это не совсем так: tf-idf дает вам релевантность термина в данном документе.
Таким образом, вы можете идеально использовать его для кластеризации путем вычисления близость, что-то вроде

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))

для каждого термина t как в документе i, так и в документе j.

person PierrOz    schedule 29.03.2010

TF-IDF служит другой цели; если вы не собираетесь изобретать велосипед, вам лучше использовать такой инструмент, как Carrot. Поиск в Google кластеризации документов может дать вам множество алгоритмов, если вы захотите реализовать их самостоятельно.

person Mikos    schedule 02.04.2010
comment
как TF-IDF не связан с кластеризацией? как вы будете группировать текстовые документы? - person MonsterMMORPG; 06.09.2015