Как я могу настроить средство ранжирования Retrieve and Rank с помощью словаря/модели специфичных для предметной области фраз?

Мы пытаемся сгруппировать фразы вместе, чтобы улучшить результаты.

Например, если пользователь задает вопрос типа «Когда мне нужно заменить фильтр моего кондиционера?» со специфичной для домена фразой, такой как «кондиционирование воздуха», R&R возвращает некоторые ответы, содержащие термин «воздух» и не содержащие «кондиционирование», или возвращает ответы, содержащие другие термины, такие как подушка безопасности или воздушный фильтр.

Это можно сделать с помощью необработанного экземпляра Solr и установить фразу в кавычках. Итак, запрос Solr будет выглядеть следующим образом:

...     
"debug": {
    "rawquerystring": "When do I have to change the filter of my \"air conditioning\" ?",
    "querystring": "When do I have to change the filter of my \"air conditioning\" ?",
    "parsedquery": "text:when text:do text:i text:have text:to text:change text:the text:filter text:of text:my PhraseQuery(text:\"air conditioning\") text:?",
    "parsedquery_toString": "text:when text:do text:i text:have text:to text:change text:the text:filter text:of text:my text:\"air conditioning\" text:?",      
...

Однако руководство по R&R состояния:

Синтаксис отличается от стандартного синтаксиса Solr следующим образом:

Вы можете искать один термин или фразу. Вам не нужно заключать фразу в двойные кавычки, как в Solr, но вы можете включать фразы в запрос, и они учитываются моделями ранжирования.

Нам не удалось найти более подробную информацию о приведенном выше заявлении.

Но, как мы понимаем, ранкер должен определять фразы. Если это так, нам было интересно, есть ли способ установить словарь фраз для настройки ранкера? Или мы могли бы установить собственную модель юридических фраз? Какие есть варианты для достижения этой цели?

Спасибо


person Pargles    schedule 18.04.2016    source источник


Ответы (1)


В настоящее время RnR не поддерживает строгие запросы фраз, хотя есть функции, которые учитывают порядок терминов и смежные термины. Мы работаем над новой версией сервиса, в которой пользователи смогут использовать полный синтаксис обычного solr-запроса (включая указание фраз) для получения документов.

person Wenlong    schedule 21.04.2016