Какой планировщик использовать в основном для отправки искрового задания в кластере Google Cloud Dataproc?

У меня есть несколько искровых работ, которые я должен планировать дважды или трижды в день, в зависимости от требований к процессу, и это своего рода пакетная работа. У нас была такая настройка в системе OnPremise Hadoop и использование Apache Oozie Workflow для оркестровки. Поскольку мы находимся в Google Cloud, будет ли работать та же самая настройка, или я должен переключить ее на Composer. Я знаю, что Composer - это управляемая служба, предоставляемая Google, и для Oozie мне нужно выполнить настройку. Но в случае Oozie изменения кода будут минимальными, а в случае Composer мне придется изменить задание планировщика, что может привести к минимальным изменениям процесса. Я даже не знаю, будет ли интеграция Oozie работать должным образом или нет, поскольку это будет похоже на внешний сервис для облака. Какой планировщик сэкономит мое время, а также больше подходит для такого рода пакетных заданий.


person miles212    schedule 08.02.2020    source источник
comment
Ознакомьтесь с этим вопросом. Он охватывает основные моменты, позволяющие сделать выбор.   -  person Tlaquetzal    schedule 08.02.2020


Ответы (1)


Я собираюсь нанести удар - это зависит от того, насколько сложна ваша заявка на работу Dataproc. Если это минимальная отправка с небольшими аргументами или без них, и вам не нужно указывать идентификаторы заданий и планировать использование ярлыков - Cloud Scheduler действительно хорошо работает для вашей конкретной цели 2-3 раза в день и МЕРТВО ПРОСТО .

Однако, если вам нужна более сложная функциональность, Cloud Composer - хороший вариант для будущего, хотя, как вы и предсказывали, довольно много изменений кода.

person Parth Thakkar    schedule 17.09.2020