Можно ли добавить дополнительный ввод на более позднем этапе mrjob?

У меня есть mrjob, который состоит из 3 шагов. Второй шаг ожидает в качестве входных данных результатов первого шага, а также еще некоторого контента из S3.

Я понимаю, что я всегда могу «пропустить» его через первый шаг, то есть эммит как есть, и использовать его только на втором шаге, но я хотел бы избежать этого.

Есть ли способ определить дополнительный ввод для более поздних шагов в mrjob?


person Eleni    schedule 01.04.2014    source источник


Ответы (1)


Вместо того, чтобы группировать шаги в одно задание, вы можете использовать постоянный поток заданий, чтобы разделить задачу на части до и после вторичного ввода:

Повторное использование экземпляра Amazon Elastic MapReduce

http://pythonhosted.org/mrjob/guides/emr-advanced.html

person Taro Sato    schedule 17.04.2014