Как настроить Pyspark в Python 3 с помощью spark-env.sh.template

Поскольку у меня есть эта проблема в моем ноутбуке ipython3, я думаю, мне нужно как-то изменить "spark-env.sh.template".

Исключение: Python в worker имеет версию 2.7, отличную от версии в драйвере 3.4, PySpark не может работать с другими дополнительными версиями.


person nicolasdavid    schedule 19.06.2015    source источник


Ответы (2)


Spark еще не работает с Python 3. Если вы хотите использовать Python API, вам также понадобится интерпретатор Python (версия 2.6 или новее).

У меня была такая же проблема при запуске IPYTHON=1 ./pyspark.

Хорошо, быстрое исправление

Отредактируйте vim pyspark и измените строку PYSPARK_DRIVER_PYTHON="ipython" на

PYSPARK_DRIVER_PYTHON="ipython2"

Вот и все.

Если вы хотите проверить, на что указывает доза ipython,

Введите which ipython в терминале, и я уверен, что это будет

/Library/Frameworks/Python.framework/Versions/3.4/bin/ipython

** ОБНОВЛЕНО **

Последняя версия Spark хорошо работает с python 3. Так что с последней версией это может не понадобиться.

Просто установите переменную окружения:

export PYSPARK_PYTHON=python3

если вы хотите, чтобы это изменение было постоянным, добавьте эту строку в скрипт pyspark

person TMKasun    schedule 06.10.2015
comment
Spark поддерживает Python 3 сейчас, а также на момент ответа. См., Например: stackoverflow.com/questions/30279783 - person Reid; 23.03.2016

Я считаю, что вы можете указать эти два отдельно, например:

PYSPARK_PYTHON=/opt/anaconda/bin/ipython
PYSPARK_DRIVER_PYTHON=/opt/anaconda/bin/ipython

На основании этого другого вопроса Apache Spark: как использовать pyspark с Python 3.

person Kevin Dahl    schedule 23.06.2015
comment
в чем разница между PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON? - person enneppi; 27.01.2017