У меня есть корпус из следующих 4 документов:
‹1> Это первый документ.
‹2> А это второй документ.
‹3> Третий документ длиннее первого и второго.
‹4> Это последний документ.
И используйте очередь поиска «первый ИЛИ последний», как я должен вычислить tf-idf?
В настоящее время я использую это:
tf(x, D) = raw frequency of term x in document D / raw frequency of most occurring term in D
idf(x) = log(1 + total number of documents / number of documents containing x)
Итак, для очереди я получаю<1> = (1 / 1) * log(1 + 4/3)
<3> = (1 / 2) * log(1 + 4/3)
<4> = (1 / 1) * log(1 + 4/3)
Это верно? Как вы делаете это правильно? Я рассчитываю значение для всех поисковых запросов отдельно, а затем добавляю? умножить?