Используемые инструменты:
- Искра 2
- Газированная вода (H2O)
- Блокнот Цеппелинга
- Pyspark-код
Я запускаю H2O во ВНУТРЕННЕМ режиме с моего ноутбука Zeppelin, так как моя среда — YARN. Я использую основную команду:
from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o
Моя проблема в том, что у меня установлен сервер zeppelin на слабой машине, и когда я запускаю свой код ИЗ ZEPPELIN, кластер H2O автоматически запускается на этой машине, используя ее IP. Драйвер работает там, и я ограничен памятью драйвера, которую потребляет H2O. У меня есть 4 машины с сильными рабочими узлами по 100 ГБ и много ядер, и кластер использует их, пока я запускаю свои модели, но я хотел бы, чтобы кластер H2O запускался на одной из этих рабочих машин и запускал там драйвер, но я не нашел способ заставить H2O сделать это.
Интересно, есть ли решение, или я должен установить сервер zeppelin на рабочую машину.
Помощь будет оценена, если решение возможно