Поиск по близости и рейтингу

Я хочу знать, позволяет ли служба Retrieve & Rank, особенно во время ранжирования, поиск по близости.

Пример :

Ranker learned : 

a. Query = "I have a problem with my mailbox"

b. Documents with pertinence score : "Doc1":3, "Doc2":4", "Doc3":1

Итак, мы можем представить, что когда я использую только службу Retrieve, результат запроса:

1. Doc1 
2. Doc2
3. Doc3

И когда я использую Ranker для изменения порядка предыдущего результата, мы имеем:

1. Doc2 
2. Doc1
3. Doc3

На данный момент все в порядке.

Теперь я хочу выполнить новый (и аналогичный) запрос с помощью Ranker: "У меня возникла проблема с моим почтовым ящиком"

Вопрос в том :

  1. Сопоставит ли Ranker мой новый запрос с запросом, который он изучил ранее? Итак, результат будет:

     1. Doc2 
     2. Doc1
     3. Doc3
    
  2. Или ранжировщик не сопоставит мой новый запрос с запросом, который он изучил ранее, и поэтому результатом будет результат выполнения службы извлечения:

     1. Doc1
     2. Doc2
     3. Doc3
    

Эта документация https://www.ibm.com/watson/developercloud/doc/retrieve-rank/plugin_query_syntax.shtml и особенно этот текст заставляет меня думать, что Ranker не будет соответствовать запросам:

The following modifiers are not supported with the /fcselect request handler:
 - [...]
 - Search by proximity
 - [...]

Но когда я пробую этот пример, кажется, что Ranker соответствует запросам...

Спасибо за ваше время.


person Julien Preisner    schedule 26.08.2016    source источник


Ответы (1)


Таким образом, ранжировщик не работает, запоминая ваши обучающие вопросы ИЛИ сопоставляя новые вопросы с ближайшим вопросом в наборе обучающих данных. На самом деле ранжировщик вообще не работает напрямую с вопросами.

Вместо этого, согласно обзорному материалу в документации RnR, ранжировщик использует подход, называемый «обучение для ранжирования» (может быть полезно просмотреть статью в Википедии, посвященную этому: https://en.wikipedia.org/wiki/Learning_to_rank).

По сути, подход «обучение для ранжирования» заключается в том, чтобы сначала сгенерировать набор функций, которые отражают некоторое представление о том, насколько хорошо каждый из документов-кандидатов возвращается из исходного Этап извлечения соответствует запросу. См. этот пост для получения дополнительной информации о функциях: ранжирование вручную.

Затем, на основе обучающих данных, ранжировщик научится обращать внимание на эти функции, чтобы наилучшим образом повторно ранжировать набор документов-кандидатов, чтобы оптимизировать релевантность. Такой подход позволяет обобщать различные вопросы, которые появятся в будущем (у них могут быть одни и те же темы, а могут и не быть).

person chakravr    schedule 05.05.2017