Поисковая оптимизация с использованием Apache Lucene

Я работаю над проектом по реализации крупномасштабной индексации данных Twitter для оптимизации поиска с использованием Apache Lucene. Lucene предоставляет инвертированный индекс для фильтрации блоков, соответствующих заданным критериям выбора.

Как мне реализовать этот проект? Должен ли я установить виртуальную машину Cloudera и продолжить? или мне следует развернуть Hadoop из Apache на платформе Ubuntu?

Причина, по которой я спрашиваю об этом, заключается в том, что я не могу подтвердить, использует ли уже Cloudera Lucene для оптимизации поиска.

Пожалуйста, порекомендуйте.


person Saurabh    schedule 13.10.2014    source источник


Ответы (1)


Cloudera предоставляет вам пакеты Debian и программное обеспечение для автоматической установки и управления кластером. Вот и все. В стеке Hadoop нет ничего про поиск (и его оптимизацию). Таким образом, вы можете выбрать для своего проекта либо vanilla, либо cloudera.

Для поиска вы можете использовать Elasticsearch. Он имеет интеграцию с hadoop и использует Lucene для внутренних целей.

person Alex Dvoretsky    schedule 13.10.2014