Apache Spark, что я здесь настаиваю?

В этой строке какой RDD сохраняется? dropResultsN или dataSetN?

dropResultsN = dataSetN.map(s -> standin.call(s)).persist(StorageLevel.MEMORY_ONLY());

Вопрос возникает как побочная проблема из-за время Apache Spark для каждой операции на JavaRDD , где я все еще ищу хороший ответ на основной вопрос о том, как лучше всего рассчитать время создания RDD.

JimLohse 11.07.2016 источник

Ответы (2)

arrow_upward
1
arrow_downward

dropResultsN — это сохраняемый RDD (который представляет собой RDD, полученный путем сопоставления dataSetN с методом standin.call()).

jaco0646 11.07.2016

comment

Я бы тоже так подумал, и когда я убираю вызов, Spark (безумно) продолжает пересчитывать RDD, даже несмотря на то, что он должен быть включен в DAG задач, которые должны выполняться в этом приложении. Было бы неплохо, если бы ваш ответ содержал ссылку на что-то и цитировал это что-то. Не копаясь в исходном коде, чем я и займусь дальше. - JimLohse; 12.07.2016

comment

Предыдущий комментарий NVM Я нашел хороший пример в Learning Spark и опубликовал отдельный ответ - JimLohse; 12.07.2016

arrow_upward
0
arrow_downward

Я нашел хороший пример этого в Learning Spark от O'Reilly:

Это пример 3-40. persist() в Scala (при условии, что Java такая же)

import org.apache.spark.storage.StorageLevel

val result = input.map( x => x*x )
result.persist(StorageLevel.[<your choice>][1])

ПРИМЕЧАНИЕ в Learning Spark: обратите внимание, что мы вызвали persist() в RDD перед первым действием. Вызов persist() сам по себе не вызывает оценку.

МОЕ ПРИМЕЧАНИЕ, что в этом примере сохранение находится на следующей строке, я думаю, что это намного понятнее, чем мой код в моем вопросе.

JimLohse 12.07.2016

Apache Spark, что я здесь настаиваю?

Ответы (2)

Похожие вопросы