Pyspark произволно не успява да напише tos3

Писане на моя word2vec модел в S3, както следва:

model.save(sc, "s3://output/folder")

Обикновено го правя без проблеми, така че няма проблем с идентификационните данни на AWS, но на случаен принцип получавам следната грешка.

17/01/30 20:35:21 WARN ConfigurationUtils: Не може да се създаде временна директория с правилно разрешение: /mnt2/s3 java.nio.file.AccessDeniedException: /mnt2 в sun.nio.fs.UnixException.translateToIOException(UnixException.java: 84) в sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:102) в sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:107) в sun.nio.fs.UnixFileSystemProvider.createDirectory(UnixFileSystemProvider.java :384) в java.nio.file.Files.createDirectory(Files.java:674) в java.nio.file.Files.createAndCheckIsDirectory(Files.java:781) в java.nio.file.Files.createDirectories(Files. java:767) на com.amazon.ws.emr.hadoop.fs.util.ConfigurationUtils.getTestedTempPaths(ConfigurationUtils.java:216) на com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.initialize(S3NativeFileSystem. java:447) на com.amazon.ws.emr.hadoop.fs.EmrFileSystem.initialize(EmrFileSystem.java:1 11) в org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2717) в org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:93) в org.apache.hadoop.fs. FileSystem$Cache.getInternal(FileSystem.java:2751) в org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2733) в org.apache.hadoop.fs.FileSystem.get(FileSystem.java: 377) в org.apache.hadoop.fs.Path.getFileSystem(Path.java:295) в org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter.(FileOutputCommitter.java:113) в org.apache.hadoop. mapreduce.lib.output.FileOutputCommitter.(FileOutputCommitter.java:88) в org.apache.parquet.hadoop.ParquetOutputCommitter.(ParquetOutputCommitter.java:41) в org.apache.parquet.hadoop.ParquetOutputFormat.getOutputCommitter(ParquetOutputFormat.java: 339)

Опитах в различни клъстери и не успях да го разбера. Това известен проблем с pyspark ли е?


person kassnl    schedule 30.01.2017    source източник


Отговори (1)


Това вероятно е свързано с SPARK-19247. Към днешна дата (Spark 2.1.0) програмите за писане на ML преразпределят всички данни в един дял и това може да доведе до грешки в случай на големи модели. Ако това наистина е източникът на проблема, можете да опитате да коригирате вашата дистрибуция ръчно, като използвате код от съответния PR.

person zero323    schedule 31.01.2017