Принудительный запуск кластера H2O Sparkling Water на определенной машине в режиме YARN

Используемые инструменты:

Искра 2
Газированная вода (H2O)
Блокнот Цеппелинга
Pyspark-код

Я запускаю H2O во ВНУТРЕННЕМ режиме с моего ноутбука Zeppelin, так как моя среда — YARN. Я использую основную команду:

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

Моя проблема в том, что у меня установлен сервер zeppelin на слабой машине, и когда я запускаю свой код ИЗ ZEPPELIN, кластер H2O автоматически запускается на этой машине, используя ее IP. Драйвер работает там, и я ограничен памятью драйвера, которую потребляет H2O. У меня есть 4 машины с сильными рабочими узлами по 100 ГБ и много ядер, и кластер использует их, пока я запускаю свои модели, но я хотел бы, чтобы кластер H2O запускался на одной из этих рабочих машин и запускал там драйвер, но я не нашел способ заставить H2O сделать это.

Интересно, есть ли решение, или я должен установить сервер zeppelin на рабочую машину.

Помощь будет оценена, если решение возможно

orryk 21.03.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Начните свою работу в режиме пряжи-кластера. Это заставит драйвер работать как другой контейнер YARN.

Вот еще один пост stackoverflow, описывающий разницу:

Кластер пряжи Spark против клиент - как выбрать какой использовать?

TomKraljevic 27.03.2018

Принудительный запуск кластера H2O Sparkling Water на определенной машине в режиме YARN

Ответы (1)

Похожие вопросы