Нужна ли мне локальная версия Spark при подключении к другому кластеру Spark через sparklyr?

У меня есть производственный кластер R с установленной Rstudio. Пользователи распределяют нагрузку на сервер R и пишут там код. У меня также есть отдельный кластер Spark с 4 узлами. Используя sparklyr, я могу легко подключиться к своему искровому кластеру через:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

Единственное, что я заметил, это то, что когда я это делаю, на рабочем сервере R используется некоторое приложение Spark. Я считаю, что это вызывает некоторые проблемы. У меня Spark установлен как на рабочих серверах R, так и на кластере Spark в том же месте SPARK_HOME, что и /var/lib/Spark.

Я хотел бы полностью избежать использования Spark на своих серверах R, чтобы там не было использования, связанного со Spark. Как мне это сделать с sparklyr?


person Zafar    schedule 24.05.2018    source источник


Ответы (1)


Да, вам нужна локальная установка Spark для отправки приложений Spark. Остальное зависит от режима:

  • В клиентском режиме драйвер будет работать на том же узле, с которого вы отправляете заявку.
  • В кластерном режиме драйвер будет работать на кластере. Не будет локального процесса Spark. Однако это не поддерживает интерактивную обработку.
person user9843191    schedule 24.05.2018
comment
что такое интерактивная обработка? Это только с живыми данными? - person Zafar; 24.05.2018