Каковы основные узкие места Flink при выполнении большого количества работ?

Моя команда оценивает Flink для нескольких случаев использования, когда мы рассматриваем очень большое количество групп обработки, для которых мы хотели бы изолировать ресурсы. Существуют ли известные серьезные подводные камни / узкие места, с которыми люди могут столкнуться при выполнении десятков тысяч заданий в одном кластере?

Пока что мы заметили, что JobManager, кажется, значительно замедляется после нескольких сотен заданий, с рекомендацией здесь заключается в том, чтобы разделить один большой кластер на несколько меньших кластеров. Это лучший рекомендуемый подход или есть способ заставить Flink надежно работать с очень большим количеством заданий?


person Maixy    schedule 25.10.2018    source источник


Ответы (1)


Одно задание на кластер может быть привлекательным подходом, но, конечно, если задания недолговечны, накладные расходы на запуск кластера для каждого задания могут быть нежелательными. Одним из преимуществ этого подхода является безопасность, поскольку рабочие места могут быть должным образом изолированы друг от друга.

Если пойти в обратном направлении, то есть запустить множество заданий в одном кластере, по мере увеличения количества диспетчеров задач и заданий, координация всей деятельности по созданию контрольных точек в кластере может стать узким местом (при условии, что контрольные точки включены).

person David Anderson    schedule 28.10.2018