В Apache Solr позиция семантически означает то же самое, что и порядок?

В Apache Solr, если у меня есть два поля из двух разных документов:

поле 1: "Том Сойер был персонажем в Гекльберри Финн"

поле 2: "Гекльберри Финн - Том Сойер"

* обратите внимание, что для простоты поля не отображаются токенизированными, как показано здесь, но они находятся в индексе

И я ищу «персонаж в Гекльберри Финн» (также токенизированный), поле 2 будет иметь более высокий балл, потому что не только токены находятся в том же порядке в поле, что и в запросе, но и позиция фразы в тексте в начале и в поле, и в запросе?


person the beest    schedule 07.08.2016    source источник


Ответы (1)


Нет. Позиции не используются для подсчета очков, за исключением позиций по отношению друг к другу, если вы используете фразовый запрос. В вашем примере они одинаковые, поэтому оценка должна быть одинаковой.

Чтобы не создавать сообщение для каждого похожего вопроса, который у вас должен быть, возможно, лучше обратиться к Практическая формула оценки Lucene, которая показывает, как на самом деле рассчитывается оценка сходства TFIDF. Помните, что вычисление подобия подключаемое, поэтому, если вы используете другое сходство, вычисление будет другим.

Эти элементы также легко проверить самостоятельно — просто проиндексируйте два документа с текстом и выполните запрос с debugQuery, установленным в true, — и вы увидите, как каждый элемент влияет на оценку.

person MatsLindh    schedule 07.08.2016