Скажем, у меня есть искровая работа, которая выглядит следующим образом:
def loadTable1() {
val table1 = sqlContext.jsonFile(s"s3://textfiledirectory/")
table1.cache().registerTempTable("table1")
}
def loadTable2() {
val table2 = sqlContext.jsonFile(s"s3://testfiledirectory2/")
table2.cache().registerTempTable("table2")
}
def loadAllTables() {
loadTable1()
loadTable2()
}
loadAllTables()
Как распараллелить это задание Spark, чтобы обе таблицы создавались одновременно?
user@spark
. Если кто-то хочет прочитать обсуждение, тема — Распараллеливание создания нескольких RDD/DataFrame в Spark. - person Daniel Darabos   schedule 09.07.2015