Как сохранить потоковые данные из локального кластера Hadoop в AWS S3

Мы запускаем приложение для потоковой передачи в реальном времени на Hortonworks, используя Kafka и Spark Streaming в локальной настройке кластера.

У нас есть требование, когда нам нужно передать некоторые данные, инициированные событием, из Spark Streaming или Kafka, чтобы сохранить их в файловой системе S3 AWS.

Любые указатели вокруг этого будут оценены.




Ответы (1)


вы можете сохранить, используя схему s3a:// и API файловой системы Hadoop, например, что-то вроде

val fs = FileSystem.get("s3a://bucket1/dir", sparkContext.hadoopConfiguration) val out = fs.create("dest/mydata", true) out.write(" whatever, I forget the API for OutputStreams, it takes byte arrays really") out.close()

Настройка пути к классам может быть немного сложной, но для этого все должно быть настроено в HDP. Точнее, если это не так, я получаю звонки в службу поддержки :)

person stevel    schedule 13.02.2017