Как да стартирате Spark Shell с помощта на pyspark в Windows?

Аз съм начинаещ в Spark и се опитвам да следвам инструкциите от тук как да инициализирам обвивката на Spark от Python с помощта на cmd: http://spark.apache.org/docs/latest/quick-start.html

Но когато стартирам в cmd следното:

C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4\>c:\Python27\python bin\pyspark 

тогава получавам следното съобщение за грешка:

File "bin\pyspark", line 21 
export SPARK_HOME="$(cd ="$(cd "`dirname "$0"`"/..; pwd)" 
SyntaxError: invalid syntax

Какво правя грешно тук?

P.S. Когато съм в cmd, опитвам само C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4>bin\pyspark

тогава получавам ""python" is not recognized as internal or external command, operable program or batch file".


person Alex    schedule 28.07.2015    source източник


Отговори (5)


Трябва да имате наличен Python в системния път, можете да го добавите с setx:

setx path "%path%;C:\Python27"
person maxymoo    schedule 28.07.2015

Аз съм сравнително нов потребител на Spark (наистина от днес). Използвам spark 1.6.0 на машини с Windows 10 и 7. Следното работи за мен:

import os

import sys

spark_home = os.environ.get('SPARK_HOME', None)

if not spark_home:

raise ValueError('SPARK_HOME environment variable is not set')

sys.path.insert(0, os.path.join(spark_home, 'python'))

sys.path.insert(0, os.path.join(spark_home, 'C:/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip'))

execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))

Използвайки кода по-горе, успях да стартирам Spark в IPython преносим компютър и моята Enthought Canopy Python IDE. Преди това успях да стартирам pyspark само чрез cmd подкана. Кодът по-горе ще работи само ако променливите на средата са зададени правилно за Python и Spark (pyspark).

person Jon    schedule 12.02.2016

Със справката и помощта на потребителя "maxymoo" успях да намеря начин да задам ПОСТОЯНЕН път и за Windows 7. Инструкциите са тук:

http://geekswithblogs.net/renso/archive/2009/10/21/how-to-set-the-windows-path-in-windows-7.aspx

person Alex    schedule 28.07.2015

Изпълнявам този набор от настройки на пътя всеки път, когато стартирам pyspark в ipython:

import os
import sys
# Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"') for R
### MANNN restart spart using ipython notebook --profile=pyspark --packages com.databricks:spark-csv_2.10:1.0.3  
os.environ['SPARK_HOME']="G:/Spark/spark-1.5.1-bin-hadoop2.6"

sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/bin") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/sql")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/pyspark/mllib")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/pyspark.zip")
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/py4j-0.8.2.1-src.zip") 
sys.path.append("G:/Spark/spark-1.5.1-bin-hadoop2.6/python/lib/pyspark.zip")

from pyspark import SparkContext 
from pyspark import SparkConf
from pyspark import SQLContext 

##sc.stop() # IF you wish to stop the context
sc = SparkContext("local", "Simple App")
person KarthikS    schedule 02.03.2016

Просто задайте път в System -> Environment Variables -> Path

  • R Път в моята система C:\Program Files\R\R-3.2.3\bin
  • Python път в моята система c:\python27
  • Spark Path в моята система c:\spark-2

Пътят трябва да бъде разделен с ";" и не трябва да има разстояние между пътищата

person Zeeshan Anwar    schedule 04.04.2017