В настоящее время передо мной стоит задача создать хранилище данных для хранения и обработки огромного количества данных. Предполагаемое количество составляет более 7 миллиардов событий в день. Данные должны храниться в течение 7 дней. Средний размер события ~0,5 - 1 Кб. Нам нужно обработать данные, чтобы:
- генерировать отчеты;
- модели поездов.
В настоящее время я оцениваю:
- Google Большой запрос
- Красное смещение
- Stratio + Cassandra + AWS + EMR + EBS
- Клаудера + AWS
Итак, меня интересует:
- решение, которое вы используете внутри своей компании (фреймворки, настройка, база данных, количество узлов и т. д.)
- любые примеры реальной стоимости/сравнения, если это возможно
- сложность управления (devops)