Я немного экспериментирую с EMR. Я пытаюсь запустить очень простую искровую программу.
from pyspark.sql.types import IntegerType
mylist = [1, 2, 3, 4]
df = spark.createDataFrame(mylist, IntegerType()).show()
df.write.parquet('/path/to/save', mode='overwrite')
Я запускаю приложение, добавляя шаг в AWS EMR web-console
. Я выбираю приложение из s3
, выбираю deploy mode cluster
и оставляю остальные пустыми.
Приложение даже не запускается, вероятно, потому что я получаю следующий код ошибки: Application application_1564485869414_0002 failed 2 times due to AM Container for appattempt_1564485869414_0002_000002 exited with exitCode: 13
что я здесь делаю не так?
df
не должен содержать.show()
, который является действием, и результатом не будет фрейм данных. - person Lamanus   schedule 30.07.2019spark-submit --master yarn --deploy cluster --class main something.jar
вот так. - person Lamanus   schedule 31.07.2019--master yarn
, но он не работал. Я написал здесь еще один более развернутый вопрос: stackoverflow.com/questions/57289032/ - person Thagor   schedule 31.07.2019