Я хочу создать группу DAG для работы в Google Cloud Composer. Рабочий процесс содержит ParallelFor, и я не знаю, как его смоделировать.
Рабочий процесс выглядит примерно так:
task1 >> task2 >> task3 >> task4
где task2 разбивает данные на массивы x. Теперь я хочу запустить task3 параллельно для этих x-массивов. Task3 что-то выводит, а task4 объединяет выводы.
(вы можете найти изображение рабочего процесса здесь: https://github.com/Apollo-Workflows/Sentiment-Analysis)
На данный момент у меня есть две возможные идеи, как это могло бы работать:
- Для него существует простой синтаксис (например,
>>
для последовательного выполнения). Но такого синтаксиса я не нашел - Работа с суб-DAG. Моя идея заключалась в том, чтобы добавить task2, чтобы он создавал x subDAG (по одному для каждого массива). SubDAG - это в основном задача3. После того, как все вложенные файлы DAG завершены, их вывод направляется в task4. Это возможно? Если да, то как мне это сделать?