Solr - Найдите важные термины в подмножестве документов

Я пытаюсь получить «важные термины» для подмножества документов в Solr. Это может быть, а может и не быть лучшим способом, но в настоящее время я пытаюсь использовать функциональность Solr TF-IDF, поскольку у нас есть данные, хранящиеся в Solr, и это молниеносно. Я хочу ограничить счетчик "DF" подмножеством моих документов с помощью поиска или фильтра. Я пробовал это, где я ищу «яблоко» в поле имени:

http://localhost:8983/solr/techproducts/tvrh?q=name:apple&tv.tf=true&tv.df=true&tv.tf_idf=true&indent=on&wt=json&rows=1000

и это, конечно, дает мне только документы, в названии которых есть слово «яблоко», но частота моего документа дает подсчеты из всего набора данных, что не похоже на то, что я хочу. Я бы подумал, что Solr может это сделать, но, может быть, нет. Я открыт для предложений.

Спасибо, Адриан


person Adrian Carr    schedule 25.07.2017    source источник


Ответы (1)


Это одна из работ, которые у меня есть в моем архиве [1].

На самом деле вам нужна частота документов в вашем наборе переднего плана (ваше подмножество документов) и частота документов в вашем фоновом наборе (ваш корпус). Solr не сделает этого из коробки, но вы можете над этим поработать. В Elastic Search есть модуль, для которого вы можете вдохновиться [2]

[1] https://issues.apache.org/jira/browse/SOLR-9851

[2] https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-significantterms-aggregation.html

person Alessandro Benedetti    schedule 26.07.2017
comment
Спасибо, Алессандро. Это именно то, что я ищу. - person Adrian Carr; 26.07.2017