Принудительный запуск кластера H2O Sparkling Water на определенной машине в режиме YARN

Используемые инструменты:

  • Искра 2
  • Газированная вода (H2O)
  • Блокнот Цеппелинга
  • Pyspark-код

Я запускаю H2O во ВНУТРЕННЕМ режиме с моего ноутбука Zeppelin, так как моя среда — YARN. Я использую основную команду:

from pysparkling import *
hc = H2OContext.getOrCreate(spark)
import h2o

Моя проблема в том, что у меня установлен сервер zeppelin на слабой машине, и когда я запускаю свой код ИЗ ZEPPELIN, кластер H2O автоматически запускается на этой машине, используя ее IP. Драйвер работает там, и я ограничен памятью драйвера, которую потребляет H2O. У меня есть 4 машины с сильными рабочими узлами по 100 ГБ и много ядер, и кластер использует их, пока я запускаю свои модели, но я хотел бы, чтобы кластер H2O запускался на одной из этих рабочих машин и запускал там драйвер, но я не нашел способ заставить H2O сделать это.

Интересно, есть ли решение, или я должен установить сервер zeppelin на рабочую машину.

Помощь будет оценена, если решение возможно


person orryk    schedule 21.03.2018    source источник


Ответы (1)


Начните свою работу в режиме пряжи-кластера. Это заставит драйвер работать как другой контейнер YARN.

Вот еще один пост stackoverflow, описывающий разницу:

person TomKraljevic    schedule 27.03.2018