s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.

Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7.

Когда я попытался обновиться до EMR 5.8, задание s3-dist-cp завершилось ошибкой, как показано ниже. Изменилось ли что-нибудь между 5.7 и 5.8, что могло бы вызвать это?

#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="kill -9 %p
kill -9 %p"
#   Executing /bin/sh -c "kill -9 11042
kill -9 11042"...
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed                  hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "$@"
Traceback (most recent call last):
  ...

person gae123    schedule 21.08.2017    source источник


Ответы (1)


Возможно, уже слишком поздно, но да, в s3-dist-cp была ошибка, которая вызывала сбои заданий s3-dist-cp в emr-5.8.0, которые в противном случае работали бы в emr-5.7.0. Эта ошибка, вероятно, вызывает OOM на клиенте S3DistCp, поскольку он потребляет больше памяти при выводе списка объектов S3 до фактической отправки задания MapRed. это было исправлено в 5.9.0.

person jc mannem    schedule 04.01.2018
comment
Да, в итоге я обратился в службу поддержки, и они исправили ошибку в следующем выпуске EMR. - person gae123; 05.01.2018
comment
@jc mannem - когда вы говорите, что s3distcp перечисляет объекты, знаете ли вы, оплачиваются ли эти действия aws? или aws взимает плату только за использование emr? - person Cesar A. Mostacero; 12.12.2019