Я новичок в spark/zeppelin, и я хотел выполнить простое упражнение, в котором я преобразую CSV-файл из pandas в фрейм данных Spark, а затем зарегистрирую таблицу, чтобы запросить ее с помощью sql и визуализировать ее с помощью Zeppelin.
Но я, кажется, терплю неудачу в последнем шаге.
Я использую Спарк 1.6.1
Вот мой код:
%pyspark
spark_clean_df.registerTempTable("table1")
print spark_clean_df.dtypes
print sqlContext.sql("select count(*) from table1").collect()
Вот результат:
[('id', 'bigint'), ('name', 'string'), ('host_id', 'bigint'), ('host_name', 'string'), ('neighbourhood', 'string'), ('latitude', 'double'), ('longitude', 'double'), ('room_type', 'string'), ('price', 'bigint'), ('minimum_nights', 'bigint'), ('number_of_reviews', 'bigint'), ('last_review', 'string'), ('reviews_per_month', 'double'), ('calculated_host_listings_count', 'bigint'), ('availability_365', 'bigint')]
[Row(_c0=4961)]
Но когда я пытаюсь использовать %sql, я получаю эту ошибку:
%sql
select * from table1
Table not found: table1; line 1 pos 14
set zeppelin.spark.sql.stacktrace = true to see full stacktrace
Любая помощь будет оценена по достоинству - я даже не знаю, где найти эту трассировку стека и как она может мне помочь.
Спасибо :)