Оптимизиране на търсене с помощта на Apache Lucene

Работя върху проект за внедряване на широкомащабно индексиране на данни в Twitter за оптимизиране на търсенето с помощта на Apache Lucene. Lucene предоставя обърнат индекс за филтриране на блоковете, които отговарят на посочените критерии за избор.

За да реализирам този проект, как трябва да го направя - Трябва ли да инсталирам Cloudera vm и да продължа? или Трябва ли да разположа Hadoop от Apache на платформа Ubuntu?

Причината да питам това е, защото не мога да потвърдя дали Cloudera вече използва Lucene за оптимизиране на търсенето.

Моля за съвет.


person Saurabh    schedule 13.10.2014    source източник


Отговори (1)


Cloudera ви предоставя debian пакети и софтуер за автоматично инсталиране и управление на клъстери. Това е. В стека на Hadoop няма нищо за търсене (и това е оптимизация). Така че можете да изберете или ванилия, или обладъра за вашия проект.

За търсене можете да използвате Elasticsearch. Има интеграция с hadoop и използва вътрешно Lucene

person Alex Dvoretsky    schedule 13.10.2014