У меня есть производственный кластер R с установленной Rstudio. Пользователи распределяют нагрузку на сервер R и пишут там код. У меня также есть отдельный кластер Spark с 4 узлами. Используя sparklyr, я могу легко подключиться к своему искровому кластеру через:
sc <- sparklyr::spark_connect("spark://<my cluster>:7077")
Единственное, что я заметил, это то, что когда я это делаю, на рабочем сервере R используется некоторое приложение Spark. Я считаю, что это вызывает некоторые проблемы. У меня Spark установлен как на рабочих серверах R, так и на кластере Spark в том же месте SPARK_HOME
, что и /var/lib/Spark
.
Я хотел бы полностью избежать использования Spark на своих серверах R, чтобы там не было использования, связанного со Spark. Как мне это сделать с sparklyr
?