Нужна ли мне локальная версия Spark при подключении к другому кластеру Spark через sparklyr?

У меня есть производственный кластер R с установленной Rstudio. Пользователи распределяют нагрузку на сервер R и пишут там код. У меня также есть отдельный кластер Spark с 4 узлами. Используя sparklyr, я могу легко подключиться к своему искровому кластеру через:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

Единственное, что я заметил, это то, что когда я это делаю, на рабочем сервере R используется некоторое приложение Spark. Я считаю, что это вызывает некоторые проблемы. У меня Spark установлен как на рабочих серверах R, так и на кластере Spark в том же месте SPARK_HOME, что и /var/lib/Spark.

Я хотел бы полностью избежать использования Spark на своих серверах R, чтобы там не было использования, связанного со Spark. Как мне это сделать с sparklyr?

apache-spark sparklyr

Zafar 24.05.2018 источник

Ответы (1)

arrow_upward
2
arrow_downward

Да, вам нужна локальная установка Spark для отправки приложений Spark. Остальное зависит от режима:

В клиентском режиме драйвер будет работать на том же узле, с которого вы отправляете заявку.
В кластерном режиме драйвер будет работать на кластере. Не будет локального процесса Spark. Однако это не поддерживает интерактивную обработку.

user9843191 24.05.2018

comment

что такое интерактивная обработка? Это только с живыми данными? - Zafar; 24.05.2018

Нужна ли мне локальная версия Spark при подключении к другому кластеру Spark через sparklyr?

Ответы (1)

Похожие вопросы