Я хотел получить данные, хранящиеся в кластере Hadoop Cloudera, через Hive, Spark или SQL. У меня есть SQL-запрос, который должен получать данные из кластера. Но перед этим я хочу понять, как настроить соединение /Курсор с кластером, чтобы он знал, откуда читать или писать?
sc = spark.sparkContext
или аналогичный HIVECONTEXT или SPARKCONTEXT будет недостаточно.
Нам может понадобиться указать URL для узла и всего остального. Итак, как это сделать?
Подойдет любой небольшой пример.