Я безуспешно пытался установить Spacy в свой кластер EMR для запуска задания Pyspark. Мои действия по начальной загрузке в EMR выглядят примерно так
pip install --upgrade pip
sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
Как вы видите выше, я пытался установить его через pip и conda, но, похоже, ничего не работает. Удивительно, когда я использую блокнот jupyter и не пытаюсь отправить свою работу pyspark в качестве шага к EMR, она работает.
./conf/spark-env.sh
- person Artem Vovsia   schedule 10.10.2019