Работя върху проект за внедряване на широкомащабно индексиране на данни в Twitter за оптимизиране на търсенето с помощта на Apache Lucene. Lucene предоставя обърнат индекс за филтриране на блоковете, които отговарят на посочените критерии за избор.
За да реализирам този проект, как трябва да го направя - Трябва ли да инсталирам Cloudera vm и да продължа? или Трябва ли да разположа Hadoop от Apache на платформа Ubuntu?
Причината да питам това е, защото не мога да потвърдя дали Cloudera вече използва Lucene за оптимизиране на търсенето.
Моля за съвет.