Запускайте запросы куста и собирайте информацию о заданиях

Я хотел бы запустить список сгенерированных запросов HIVE. Для каждого я хотел бы получить MR job_id (или идентификаторы, в случае нескольких этапов). А затем, с этим job_id, собрать статистику из трекера заданий (кумулятивный ЦП, прочитанные байты...)

Как я могу отправлять запросы HIVE из сценария bash или python и получать идентификаторы job_id?

Для второй части (сбор статистики по заданию) мы используем кластер Hadoop MRv1, поэтому у меня нет REST API AppMaster. Я собираюсь собрать данные из веб-интерфейса Jobtracker. Любая лучшая идея?

hadoop hive automation

mathieu 30.01.2013 источник

Ответы (1)

arrow_upward
3
arrow_downward

вы можете получить список выполненных заданий, выполнив эту команду,

Hadoop job - перечислить все

затем для каждого идентификатора задания вы можете получить статистику с помощью команды hadoop job -status job-id

А для связывания заданий с запросом вы можете получить job_name и сопоставить его с запросом. что-то вроде этого, Как получить имена текущих запущенных рабочие места в хаупе?

надеюсь это поможет.

gsps 19.02.2013

comment

Сценарий hadoop устарел в пользу mapred, поэтому сейчас лучше использовать следующую команду. $ mapred job -status job-id - Brian Olsen; 20.03.2019

Запускайте запросы куста и собирайте информацию о заданиях

Ответы (1)

Похожие вопросы