Spark SQL в режиме реального времени в Hive

На самом деле я спрашиваю себя о производительности использования Spark SQL с Hive для аналитики в реальном времени. Я знаю, что Hive был создан для пакетной обработки, а Spark используется для выполнения быстрых запросов.

Но использование Spark SQL с Hive позволит мне выполнять запросы в реальном времени? Или он просто будет делать самые быстрые запросы, но не в режиме реального времени. Должен ли я использовать другое хранилище данных вместо Hive, например Hbase?

Заранее спасибо, Флориан

Spierki 06.07.2015 источник

comment

Hive и HBase — это симпатичные яблоки и апельсины, поэтому вам, вероятно, нужно уточнить, что вам нужно делать. Если вы ищете что-то, что работает в «реальном времени» в смысле параллельного доступа к MySQL нормального масштаба, нет, Hive/Spark не будет близок. - Sean Owen 06.07.2015

comment

Мне нужно предоставить панель инструментов для моих клиентов с информацией о продажах. Поэтому, когда они хотят получить доступ к панели инструментов, результат моих запросов должен быть очень быстрым. С учетом того, что вы сказали, мне нужно понять, что использование Hive и Spark — это не то, что мне нужно в моем случае использования, верно? Я, вероятно, должен посмотреть на вопрос, как MemSQL? - Spierki 06.07.2015

comment

Ну, в экосистеме Hadoop это, вероятно, что-то вроде Impala. Если у вас нет достаточно больших данных, Hadoop и компания вам не нужны. вообще. - Sean Owen 06.07.2015

Ответы (1)

arrow_upward
1
arrow_downward

Хотя Spark может быть намного быстрее, чем Hive, он все же, вероятно, не идеальное решение, скажем, для обслуживания веб-сайта. Таким образом, может ли Spark SQL выполнять запросы «в реальном времени» или нет, во многом зависит от того, какие временные шкалы вы считаете реальными, достаточно ли ваш набор данных для кэширования в памяти и могут ли ваши запросы использовать преимущества секционирования.

Holden 06.07.2015

comment

Хорошо, мне нужно предоставить результат моих запросов на веб-сайте, поэтому, когда я говорю в режиме реального времени, это должно быть приемлемо для веб-сайта. Использование Hbase может быть лучшей альтернативой улью? - Spierki; 06.07.2015

comment

Насколько велики ваши данные? Какие запросы вам нужно обслуживать (например, вам нужны соединения)? Некоторые варианты будут пытаться кэшировать данные в Spark (помните, что это может быть на многих узлах) или использовать традиционную базу данных (с затенением). - Holden; 06.07.2015

comment

Мои данные растут максимум на 1 ТБ в год, и мне нужно объединяться. С такими растущими данными я думаю, что традиционная база данных — не лучшее решение, именно из-за этого я ищу проблему с большими данными. Я тоже хочу использовать ZoomData, поэтому ищу совместимую технологию. - Spierki; 06.07.2015

comment

Не уверен на 100%, так как я не знаю данных, но с 1 ТБ в год вы можете это сделать, это не так много данных, и, немного подумав, что загрузить в память, вы можете это сделать. У меня такая же проблема как у вас но с 1Тб в сутки!!! - Richard Grossman; 05.01.2016

Spark SQL в режиме реального времени в Hive

Ответы (1)

Похожие вопросы