Публикации по теме 'airflow'


Обучение вашей модели машинного обучения с помощью Google AI Platform и контейнеров Custom Environment
Полное руководство по использованию Tensorflow, Airflow scheduler и Docker Платформа Google AI позволяет обучать модели с использованием различных сред . Таким образом, действительно легко обучить вашу модель с помощью одной такой команды: gcloud ai-platform jobs submit training ${JOB_NAME} \ --region $REGION \ --scale-tier=CUSTOM \ --job-dir ${BUCKET}/jobs/${JOB_NAME} \ --module-name trainer.task \ --package-path trainer \ --config..

Требуется ли замена Apache Airflow? Первое впечатление от мага-ай
Введение в mage-ai как альтернативу Apache Airflow для дата-инженеров Apache Airflow стал главным проектом Apache Foundation в январе 2019 года. Это один из самых популярных проектов для дата-инженеров, и многие компании указывают Airflow в качестве одного из требований при приеме на работу. Данные…

Вопросы по теме 'airflow'

Внешние файлы в Airflow DAG
Я пытаюсь получить доступ к внешним файлам в Airflow Task, чтобы прочитать некоторый sql, и получаю «файл не найден». Кто-нибудь сталкивался с этим? from airflow import DAG from airflow.operators.python_operator import PythonOperator from...
17572 просмотров
schedule 10.11.2022

Как контролировать работу Spark с помощью Airflow
Я настроил несколько dags, которые в конечном итоге заканчиваются командой spark-submit для искрового кластера. Я использую кластерный режим, если это имеет значение. В любом случае, мой код работает, но я понял, что если задание искры потерпит...
3540 просмотров
schedule 22.04.2024

воздушный поток - как установить время в дереве веб-интерфейса на UTC?
Я начинаю с apache airflow и работаю с DAG. Теперь я использую веб-интерфейс для мониторинга выполнения DAG и не могу понять время, отображаемое на странице просмотра в виде дерева. Это изображение иллюстрирует мою ситуацию: Я не понимаю...
1778 просмотров

Реализация пропуска SLA Airflow
Я новичок в Airflow и пытаюсь реализовать функцию промаха sla в моем DAG default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(2017,07,24), 'email': ['[email protected]'], 'email_on_failure':...
1700 просмотров
schedule 14.03.2024

Связь SQLAlchemy с таблицей task_instance в воздушном потоке
Я использую airflow и хочу иметь возможность отслеживать все файлы, созданные заданными экземплярами задач, в таблице airflow.file_list , которая является частью той же базы данных, которая используется airflow (работает на postgres). Используя...
977 просмотров
schedule 17.01.2024

Засыпка воздушного потока не полностью заполняется до настоящего времени
Я борюсь со странной проблемой, которую не могу понять. У меня есть базовая DAG, которая не делает ничего особенного. Он просто использует оператор bash для запуска скрипта Python. У меня запланирован запуск этой DAG каждый понедельник. Когда я...
538 просмотров

Параметр командной строки для активации DAG воздушного потока
У нас есть конвейер непрерывной интеграции, который автоматически развертывает наши DAG Airflow на сервере Airflow. При развертывании новой версии группы обеспечения доступности баз данных ее состояние по умолчанию ВЫКЛ . Мы хотели бы включить его...
2267 просмотров

Сбой сборки Docker-compose из-за созданной контейнером ссылки в томе
У меня есть настройка, в которой воздушный поток работает в контейнере докеров, и его каталог журналов сопоставлен с каталогом на хосте. Во время работы он создает ссылку на файловую систему /usr/local/airflow/logs/scheduler/latest , которая имеет...
3308 просмотров

Как добавить ручные задачи в Apache Airflow Dag
Я использую Apache Airflow для управления конвейером обработки данных. В середине конвейера некоторые данные необходимо просмотреть перед обработкой следующего шага. например ... -> task1 -> human review -> task2 -> ... где задача1...
2902 просмотров
schedule 09.02.2024

airflow schedule_interval не работает
У меня вот такой DAG, dag = DAG('testing',description='Testing DAG',schedule_interval='0 4,15 * * *') t1 = BashOperator(task_id = 'testing_task',bash_command = 'python /home/ubuntu/airflow/dags/scripts/test.py',dag=dag, start_date=datetime(2018,...
1323 просмотров
schedule 21.03.2024

Как динамически создавать субтеги в Airflow
У меня есть основной даг, который извлекает файл и разбивает данные в этом файле на отдельные файлы csv. У меня есть другой набор задач, которые необходимо выполнить для каждого файла из этих файлов csv. например (загрузка в GCS, вставка в BigQuery)...
5218 просмотров
schedule 02.06.2024

Балка отказа при установке воздушного потока [gcp]
Установка воздушного потока с помощью команды не выполняется sudo pip3 install apache-airflow[gcp_api] Вчера все работало нормально. Сегодня я вижу следующую ошибку: Could not find a version that satisfies the requirement...
3150 просмотров

Ошибка файловой системы только для чтения при развертывании Kubernetes
Я столкнулся с ошибкой при развертывании Airflow в Kubernetes (именно эта версия Airflow https://github.com/puckel/docker-airflow/blob/1.8.1/Dockerfile ) относительно записи разрешений в файловую систему. Ошибка, отображаемая в журналах модуля:...
33869 просмотров
schedule 17.03.2024

Воздушный поток - запускайте каждую функцию Python отдельно
У меня есть сценарий воздушного потока ниже, который запускает все сценарии Python как одну функцию. Я хотел бы, чтобы каждая функция python запускалась индивидуально, чтобы я мог отслеживать каждую функцию и их статус. ## Third party Library...
3228 просмотров
schedule 26.10.2023

Параллельное выполнение задач воздушного потока - ничего не планируется
Я только что прошел процесс настройки моей настройки Airflow для параллельной обработки, следуя эту статью и используя эта статья . Кажется, все работает нормально в том смысле, что я смог запустить все эти команды из статей без каких-либо...
2982 просмотров

Airflow BashOperator OSError: [Errno 2] Нет такого файла или каталога
Я продолжаю получать ту же ошибку от запланированного BashOperator, который в настоящее время выполняет обратное заполнение (он «отстает» более чем на месяц). [2018-06-10 22:06:33,558] {base_task_runner.py:115} INFO - Running: ['bash', '-c',...
9401 просмотров

Удаление SubDag из базы данных Airflow
Я создал 4 SubDag в основном Dag, которые будут работать с разным schedule_interval. Я удалил операцию одного SubDag, но он все еще отображается в базе данных Airflow. Будет ли выполняться эта запись в базе данных? Есть ли способ удалить это из...
90 просмотров
schedule 08.12.2023

Использование плагина в Google Composer приводит к сбою
Я написал небольшой плагин для Apache Airflow, который отлично работает в моем локальном развертывании. Однако, когда я использую Google Composer, пользовательский интерфейс зависает и перестает отвечать на запросы. Есть ли способ перезапустить...
361 просмотров
schedule 01.11.2022

Ограничение видимости Airflow DAG по группам AD / LDAP
Можно ли ограничить видимость и доступность DAG по группам пользователей в Airflow? Например, я хочу иметь одну большую среду Airflow для всей моей компании, разные команды будут использовать эту среду Airflow для своих рабочих процессов. Скажем,...
7133 просмотров
schedule 02.10.2022

Ошибка при использовании DataflowPythonOperator воздушного потока для планирования задания потока данных
Я пытаюсь запланировать задания потока данных с помощью воздушного потока DataflowPythonOperator. Вот мой оператор dag: test = DataFlowPythonOperator( task_id = 'my_task', py_file = 'path/my_pyfile.py', gcp_conn_id='my_conn_id',...
1792 просмотров
schedule 09.01.2024