Запускайте запросы куста и собирайте информацию о заданиях

Я хотел бы запустить список сгенерированных запросов HIVE. Для каждого я хотел бы получить MR job_id (или идентификаторы, в случае нескольких этапов). А затем, с этим job_id, собрать статистику из трекера заданий (кумулятивный ЦП, прочитанные байты...)

Как я могу отправлять запросы HIVE из сценария bash или python и получать идентификаторы job_id?

Для второй части (сбор статистики по заданию) мы используем кластер Hadoop MRv1, поэтому у меня нет REST API AppMaster. Я собираюсь собрать данные из веб-интерфейса Jobtracker. Любая лучшая идея?


person mathieu    schedule 30.01.2013    source источник


Ответы (1)


вы можете получить список выполненных заданий, выполнив эту команду,

Hadoop job - перечислить все

затем для каждого идентификатора задания вы можете получить статистику с помощью команды hadoop job -status job-id

А для связывания заданий с запросом вы можете получить job_name и сопоставить его с запросом. что-то вроде этого, Как получить имена текущих запущенных рабочие места в хаупе?

надеюсь это поможет.

person gsps    schedule 19.02.2013
comment
Сценарий hadoop устарел в пользу mapred, поэтому сейчас лучше использовать следующую команду. $ mapred job -status job-id - person Brian Olsen; 20.03.2019