Поисковая оптимизация с использованием Apache Lucene

Я работаю над проектом по реализации крупномасштабной индексации данных Twitter для оптимизации поиска с использованием Apache Lucene. Lucene предоставляет инвертированный индекс для фильтрации блоков, соответствующих заданным критериям выбора.

Как мне реализовать этот проект? Должен ли я установить виртуальную машину Cloudera и продолжить? или мне следует развернуть Hadoop из Apache на платформе Ubuntu?

Причина, по которой я спрашиваю об этом, заключается в том, что я не могу подтвердить, использует ли уже Cloudera Lucene для оптимизации поиска.

Пожалуйста, порекомендуйте.

Saurabh 13.10.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Cloudera предоставляет вам пакеты Debian и программное обеспечение для автоматической установки и управления кластером. Вот и все. В стеке Hadoop нет ничего про поиск (и его оптимизацию). Таким образом, вы можете выбрать для своего проекта либо vanilla, либо cloudera.

Для поиска вы можете использовать Elasticsearch. Он имеет интеграцию с hadoop и использует Lucene для внутренних целей.

Alex Dvoretsky 13.10.2014

Поисковая оптимизация с использованием Apache Lucene

Ответы (1)

Похожие вопросы