Моя команда оценивает Flink для нескольких случаев использования, когда мы рассматриваем очень большое количество групп обработки, для которых мы хотели бы изолировать ресурсы. Существуют ли известные серьезные подводные камни / узкие места, с которыми люди могут столкнуться при выполнении десятков тысяч заданий в одном кластере?
Пока что мы заметили, что JobManager, кажется, значительно замедляется после нескольких сотен заданий, с рекомендацией здесь заключается в том, чтобы разделить один большой кластер на несколько меньших кластеров. Это лучший рекомендуемый подход или есть способ заставить Flink надежно работать с очень большим количеством заданий?