Я сталкиваюсь с той же проблемой, что и в этом потоке, с моим приложением Scala Spark Streaming: Почему задание Spark завершается с ошибкой при слишком большом количестве открытых файлов?
Но учитывая, что я использую Azure HDInsights для развертывания своего кластера YARN, я не думаю, что смогу войти на эту машину и обновить ulimit на всех машинах.
Есть ли другой способ решить эту проблему? Я также не могу уменьшить количество редукторов слишком сильно, иначе моя работа станет намного медленнее.