Каковы основные различия между поисковыми системами, которые должны влиять на решение о том, какую использовать для поиска закрытых данных?

Каковы основные различия между поисковыми системами (DtSearch, Lucene.net, Sphinx, Google и т. д.), которые должны повлиять на решение о том, какую из них использовать для поиска закрытых данных?

Данные для поиска состоят из данных без представления, размеченных метаданными в виде пар имя/значение. Нас не интересуют возможности парсинга форматов различных инструментов. Кроме того, результаты поиска должны быть хорошо структурированными, свободными от представления данными, поддающимися агрегированию с результатами поиска из других репозиториев (подобно структурированных).

Ниже перечислены некоторые важные характеристики поисковых систем, которые должны учитываться при принятии решения. Приветствуются дальнейшие предложения или описание опыта.

• Стоимость • Простота использования • Можно настроить для возврата только определенных тегов • Может «идентифицировать» определенные термины, придавая результатам поиска более высокий вес для этих результатов • Быстрота ‹ 0,3 секунды для возврата результатов поиска или %E6 записей/документов • Поддержка тегов с типами (найти погоду='солнечно', но не личность=солнечно) • Поддержка взвешивания для ранжирования релевантности • Возврат результатов в ранжированном порядке по релевантности • Поддержка синонимов • Поддержка основ • Поддержка стоп-слов • Поддержка орфографических исправлений • Поддается распараллеливанию или построению индекса ( (если на основе индекса) • Быстрая переиндексация (если на основе индекса) • Быстрое обновление индекса (если на основе индекса) • Объединение результатов из нескольких индексов (если на основе индекса) • Проверки близости: придают более высокую релевантность словам, найденным близко друг к другу


person Anthony Carroll    schedule 10.11.2008    source источник


Ответы (2)


Мне нравится Solr с DataImportHandler. Он поддерживает большинство ваших маркеров, и его не так уж сложно настроить, если вы не возражаете против редактирования некоторых файлов конфигурации XML. Это проще, чем многие поисковые системы корпоративного класса.

В GSA (Google Search Appliance) нет ничего плохого, но для желаемого уровня контроля Solr — лучший вариант.

Lucene/Solr

person Geordie    schedule 21.11.2008

Что касается релевантности, Google Search Appliance допускает небольшую настройку. Они считают, что слишком много настроек приведет к плохой релевантности, и я действительно верю, что Google знает релевантность.

Маловероятно, что пользователи сочтут поисковую систему, отличную от Google, более удобной в использовании.

person Liam    schedule 14.11.2008