Какви са основните разлики между търсачките (DtSearch, Lucene.net, Sphinx, Google и т.н.), които трябва да повлияят на решението кои да се използват за търсене на частни данни?
Данните за търсене се състоят от данни без представяне, които са маркирани с метаданни под формата на двойки име/стойност. Не се интересуваме от възможностите за разбор на формати на различните инструменти. Освен това резултатите от търсенето трябва да бъдат добре структурирани, без представяне на данни, които могат да се агрегират с резултати от търсене от други (подобно структурирани хранилища.
Някои подходящи характеристики на търсачката, които трябва да информират решението, са изброени по-долу. Допълнителни предложения или описание на опита са добре дошли.
• Цена • Лесна употреба • Може да се конфигурира да връща само конкретни тагове • Може да „идентифицира” конкретни термини, давайки на резултатите от търсенето по-високо тегло за тези резултати • Бързо ‹ 0,3 секунди за връщане на резултати от търсене или %E6 записи/документи • Поддържа тагове с типове (намерете weather='sunny', но не personality=sunny) • Поддържа претегляния, за да даде класиране по уместност • Връща резултати в класиран ред по уместност • Поддържа синоними • Поддържа произходни думи • Поддържа стоп думи • Поддържа корекции на правопис • Податлив на паралелизиране или изграждане на индекс ( ако е базиран на индекс) • Бърз за повторно индексиране (ако е базиран на индекс) • Бърз за актуализиране на индекс (ако е базиран на индекс) • Комбинирайте резултати от множество индекси (ако е базиран на индекс) • Проверки на близост: дайте по-голяма уместност на думите, намерени близо една до друга