Сбой Spark из-за слишком большого количества открытых файлов в кластере HDInsight YARN

Я сталкиваюсь с той же проблемой, что и в этом потоке, с моим приложением Scala Spark Streaming: Почему задание Spark завершается с ошибкой при слишком большом количестве открытых файлов?

Но учитывая, что я использую Azure HDInsights для развертывания своего кластера YARN, я не думаю, что смогу войти на эту машину и обновить ulimit на всех машинах.

Есть ли другой способ решить эту проблему? Я также не могу уменьшить количество редукторов слишком сильно, иначе моя работа станет намного медленнее.


person KangarooWest    schedule 22.05.2017    source источник


Ответы (1)


Вы можете подключиться по ssh ко всем узлам с головного узла (ambari ui показывает полное доменное имя всех узлов).

ssh [email protected]

Вы можете написать пользовательское действие который изменяет настройки на нужных узлах, если вы хотите автоматизировать это действие.

person Thomas Nys    schedule 13.05.2018