Работает ли потоковая передача искры как с cp, так и с mv

Я использую потоковую передачу искры

Моя программа постоянно читает потоки из папки hadoop. Проблема в том, что если я копирую в свою папку hadoop (hadoop fs -copyFromLocal), запускается задание spark, но если я перемещаюсь (hadoop fs -mv /hadoopsourcePath/* /destinationPath/), это происходит не работа .

Это ограничение потока искры?

У меня есть еще один вопрос, связанный с потоковой передачей искры: Может ли потоковая передача искры выбрать определенные файлы


person Sandeep Das    schedule 01.04.2016    source источник


Ответы (1)


Понял. Он работает в Spark 1.5, но выбирает только те файлы, временная метка которых равна текущей временной метке.

Например

Временная папка: файл f.txt (отметка времени t1: время создания файла)

Входная папка Spark: /input

когда вы делаете mv (hadoop fs -mv /temp/f.txt/input): Spark не выберет

Но после перемещения, если вы измените временную метку перемещенного файла, spark выберет его.

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala

Пришлось проверить исходный код spark .

person Sandeep Das    schedule 27.04.2016