Я работаю над проектом по реализации крупномасштабной индексации данных Twitter для оптимизации поиска с использованием Apache Lucene. Lucene предоставляет инвертированный индекс для фильтрации блоков, соответствующих заданным критериям выбора.
Как мне реализовать этот проект? Должен ли я установить виртуальную машину Cloudera и продолжить? или мне следует развернуть Hadoop из Apache на платформе Ubuntu?
Причина, по которой я спрашиваю об этом, заключается в том, что я не могу подтвердить, использует ли уже Cloudera Lucene для оптимизации поиска.
Пожалуйста, порекомендуйте.