Pyspark случайно не может записать tos3

Пишу свою модель word2vec на S3 следующим образом:

model.save(sc, "s3://output/folder")

Обычно я делаю это без проблем, поэтому проблем с учетными данными AWS нет, но я случайно получаю следующую ошибку.

17/01/30 20:35:21 WARN ConfigurationUtils: Невозможно создать временный каталог с надлежащим разрешением: / mnt2 / s3 java.nio.file.AccessDeniedException: / mnt2 в sun.nio.fs.UnixException.translateToIOException (UnixException.java: 84) в sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:102) в sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:107) в sun.nio.fs.UnixFileSystemProvider.createDirectory (UnixFileSystemProvider.createDirectory. : 384) в java.nio.file.Files.createDirectory (Files.java:674) в java.nio.file.Files.createAndCheckIsDirectory (Files.java:781) в java.nio.file.Files.createDirectories (Files. java: 767) на com.amazon.ws.emr.hadoop.fs.util.ConfigurationUtils.getTestedTempPaths (ConfigurationUtils.java:216) на com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.initialize (S3NativeFileSystem. java: 447) по адресу com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize (EmrFileSystem.java:1 11) в org.apache.hadoop.fs.FileSystem.createFileSystem (FileSystem.java:2717) в org.apache.hadoop.fs.FileSystem.access $ 200 (FileSystem.java:93) в org.apache.hadoop.fs. Файловая система $ Cache.getInternal (FileSystem.java:2751) в org.apache.hadoop.fs.FileSystem $ Cache.get (FileSystem.java:2733) в org.apache.hadoop.fs.FileSystem.get (FileSystem.java: 377) в org.apache.hadoop.fs.Path.getFileSystem (Path.java:295) в org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:113) в org.apache.hadoop. mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:88) в org.apache.parquet.hadoop.ParquetOutputCommitter. (ParquetOutputCommitter.java:41) в org.apache.parquet.hadoop.ParquetOutput.OutputFrom 339)

Пробовали в разных кластерах и не смогли разобраться. Это известная проблема с pyspark?

kassnl 30.01.2017 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вероятно, это связано с SPARK-19247. На сегодняшний день (Spark 2.1.0) авторы ML перераспределяют все данные в один раздел, что может привести к сбоям в случае больших моделей. Если это действительно источник проблемы, вы можете попробовать исправить свой дистрибутив вручную, используя код из соответствующий PR.

zero323 31.01.2017

Pyspark случайно не может записать tos3

Ответы (1)

Похожие вопросы