Я использую Apache Airflow для управления конвейером обработки данных. В середине конвейера некоторые данные необходимо просмотреть перед обработкой следующего шага. например
... -> task1 -> human review -> task2 -> ...
где задача1 и задача2 - задача обработки данных. Когда задача 1 завершена, данные, сгенерированные задачей 1, должны быть проверены человеком. После того, как рецензент утвердил данные, можно было запускать задачу 2. Задачи проверки, выполняемые человеком, могут занять очень много времени (например, несколько недель).
Я подумываю использовать внешнюю базу данных для хранения результатов проверки, проведенной человеком. И используйте Sensor, чтобы сузить результат обзора по временному интервалу. Но пока проверка не будет завершена, он будет занят сотрудником Airflow.
любая идея?