Pyspark случайно не может записать tos3

Пишу свою модель word2vec на S3 следующим образом:

model.save(sc, "s3://output/folder")

Обычно я делаю это без проблем, поэтому проблем с учетными данными AWS нет, но я случайно получаю следующую ошибку.

17/01/30 20:35:21 WARN ConfigurationUtils: Невозможно создать временный каталог с надлежащим разрешением: / mnt2 / s3 java.nio.file.AccessDeniedException: / mnt2 в sun.nio.fs.UnixException.translateToIOException (UnixException.java: 84) в sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:102) в sun.nio.fs.UnixException.rethrowAsIOException (UnixException.java:107) в sun.nio.fs.UnixFileSystemProvider.createDirectory (UnixFileSystemProvider.createDirectory. : 384) в java.nio.file.Files.createDirectory (Files.java:674) в java.nio.file.Files.createAndCheckIsDirectory (Files.java:781) в java.nio.file.Files.createDirectories (Files. java: 767) на com.amazon.ws.emr.hadoop.fs.util.ConfigurationUtils.getTestedTempPaths (ConfigurationUtils.java:216) на com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.initialize (S3NativeFileSystem. java: 447) по адресу com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize (EmrFileSystem.java:1 11) в org.apache.hadoop.fs.FileSystem.createFileSystem (FileSystem.java:2717) в org.apache.hadoop.fs.FileSystem.access $ 200 (FileSystem.java:93) в org.apache.hadoop.fs. Файловая система $ Cache.getInternal (FileSystem.java:2751) в org.apache.hadoop.fs.FileSystem $ Cache.get (FileSystem.java:2733) в org.apache.hadoop.fs.FileSystem.get (FileSystem.java: 377) в org.apache.hadoop.fs.Path.getFileSystem (Path.java:295) в org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:113) в org.apache.hadoop. mapreduce.lib.output.FileOutputCommitter. (FileOutputCommitter.java:88) в org.apache.parquet.hadoop.ParquetOutputCommitter. (ParquetOutputCommitter.java:41) в org.apache.parquet.hadoop.ParquetOutput.OutputFrom 339)

Пробовали в разных кластерах и не смогли разобраться. Это известная проблема с pyspark?


person kassnl    schedule 30.01.2017    source источник


Ответы (1)


Вероятно, это связано с SPARK-19247. На сегодняшний день (Spark 2.1.0) авторы ML перераспределяют все данные в один раздел, что может привести к сбоям в случае больших моделей. Если это действительно источник проблемы, вы можете попробовать исправить свой дистрибутив вручную, используя код из соответствующий PR.

person zero323    schedule 31.01.2017