Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7.
Когда я попытался обновиться до EMR 5.8, задание s3-dist-cp завершилось ошибкой, как показано ниже. Изменилось ли что-нибудь между 5.7 и 5.8, что могло бы вызвать это?
#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="kill -9 %p
kill -9 %p"
# Executing /bin/sh -c "kill -9 11042
kill -9 11042"...
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "$@"
Traceback (most recent call last):
...