Какви са основните разлики между търсачките, които трябва да повлияят на решението кои да се използват за търсене на частни данни?

Какви са основните разлики между търсачките (DtSearch, Lucene.net, Sphinx, Google и т.н.), които трябва да повлияят на решението кои да се използват за търсене на частни данни?

Данните за търсене се състоят от данни без представяне, които са маркирани с метаданни под формата на двойки име/стойност. Не се интересуваме от възможностите за разбор на формати на различните инструменти. Освен това резултатите от търсенето трябва да бъдат добре структурирани, без представяне на данни, които могат да се агрегират с резултати от търсене от други (подобно структурирани хранилища.

Някои подходящи характеристики на търсачката, които трябва да информират решението, са изброени по-долу. Допълнителни предложения или описание на опита са добре дошли.

• Цена • Лесна употреба • Може да се конфигурира да връща само конкретни тагове • Може да „идентифицира” конкретни термини, давайки на резултатите от търсенето по-високо тегло за тези резултати • Бързо ‹ 0,3 секунди за връщане на резултати от търсене или %E6 записи/документи • Поддържа тагове с типове (намерете weather='sunny', но не personality=sunny) • Поддържа претегляния, за да даде класиране по уместност • Връща резултати в класиран ред по уместност • Поддържа синоними • Поддържа произходни думи • Поддържа стоп думи • Поддържа корекции на правопис • Податлив на паралелизиране или изграждане на индекс ( ако е базиран на индекс) • Бърз за повторно индексиране (ако е базиран на индекс) • Бърз за актуализиране на индекс (ако е базиран на индекс) • Комбинирайте резултати от множество индекси (ако е базиран на индекс) • Проверки на близост: дайте по-голяма уместност на думите, намерени близо една до друга


person Anthony Carroll    schedule 10.11.2008    source източник


Отговори (2)


Харесвам Solr с DataImportHandler. Той поддържа повечето от вашите точки и не е много труден за настройка, стига да нямате нищо против да редактирате някои XML конфигурационни файлове. По-лесно е от много търсачки от корпоративен клас.

Няма нищо лошо в GSA (Google Search Appliance), но за количеството контрол, което желаете, Solr е по-добър вариант.

Lucene/Solr

person Geordie    schedule 21.11.2008

По отношение на уместността, Google Search Appliance позволява малко коригиране. Те вярват, че допускането на твърде много настройки ще доведе до лоша уместност, а аз вярвам, че Google познава уместността.

Малко вероятно е потребителите да намерят търсачка, различна от Google, по-лесна за използване.

person Liam    schedule 14.11.2008