Spark SQL в режиме реального времени в Hive

На самом деле я спрашиваю себя о производительности использования Spark SQL с Hive для аналитики в реальном времени. Я знаю, что Hive был создан для пакетной обработки, а Spark используется для выполнения быстрых запросов.

Но использование Spark SQL с Hive позволит мне выполнять запросы в реальном времени? Или он просто будет делать самые быстрые запросы, но не в режиме реального времени. Должен ли я использовать другое хранилище данных вместо Hive, например Hbase?

Заранее спасибо, Флориан


person Spierki    schedule 06.07.2015    source источник
comment
Hive и HBase — это симпатичные яблоки и апельсины, поэтому вам, вероятно, нужно уточнить, что вам нужно делать. Если вы ищете что-то, что работает в «реальном времени» в смысле параллельного доступа к MySQL нормального масштаба, нет, Hive/Spark не будет близок.   -  person Sean Owen    schedule 06.07.2015
comment
Мне нужно предоставить панель инструментов для моих клиентов с информацией о продажах. Поэтому, когда они хотят получить доступ к панели инструментов, результат моих запросов должен быть очень быстрым. С учетом того, что вы сказали, мне нужно понять, что использование Hive и Spark — это не то, что мне нужно в моем случае использования, верно? Я, вероятно, должен посмотреть на вопрос, как MemSQL?   -  person Spierki    schedule 06.07.2015
comment
Ну, в экосистеме Hadoop это, вероятно, что-то вроде Impala. Если у вас нет достаточно больших данных, Hadoop и компания вам не нужны. вообще.   -  person Sean Owen    schedule 06.07.2015


Ответы (1)


Хотя Spark может быть намного быстрее, чем Hive, он все же, вероятно, не идеальное решение, скажем, для обслуживания веб-сайта. Таким образом, может ли Spark SQL выполнять запросы «в реальном времени» или нет, во многом зависит от того, какие временные шкалы вы считаете реальными, достаточно ли ваш набор данных для кэширования в памяти и могут ли ваши запросы использовать преимущества секционирования.

person Holden    schedule 06.07.2015
comment
Хорошо, мне нужно предоставить результат моих запросов на веб-сайте, поэтому, когда я говорю в режиме реального времени, это должно быть приемлемо для веб-сайта. Использование Hbase может быть лучшей альтернативой улью? - person Spierki; 06.07.2015
comment
Насколько велики ваши данные? Какие запросы вам нужно обслуживать (например, вам нужны соединения)? Некоторые варианты будут пытаться кэшировать данные в Spark (помните, что это может быть на многих узлах) или использовать традиционную базу данных (с затенением). - person Holden; 06.07.2015
comment
Мои данные растут максимум на 1 ТБ в год, и мне нужно объединяться. С такими растущими данными я думаю, что традиционная база данных — не лучшее решение, именно из-за этого я ищу проблему с большими данными. Я тоже хочу использовать ZoomData, поэтому ищу совместимую технологию. - person Spierki; 06.07.2015
comment
Не уверен на 100%, так как я не знаю данных, но с 1 ТБ в год вы можете это сделать, это не так много данных, и, немного подумав, что загрузить в память, вы можете это сделать. У меня такая же проблема как у вас но с 1Тб в сутки!!! - person Richard Grossman; 05.01.2016