EMR PySpark ModuleNotFoundError: нет модуля с именем «spacy»

Я безуспешно пытался установить Spacy в свой кластер EMR для запуска задания Pyspark. Мои действия по начальной загрузке в EMR выглядят примерно так

pip install --upgrade pip

sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en 

sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en

Как вы видите выше, я пытался установить его через pip и conda, но, похоже, ничего не работает. Удивительно, когда я использую блокнот jupyter и не пытаюсь отправить свою работу pyspark в качестве шага к EMR, она работает.


person user3013565    schedule 09.10.2019    source источник
comment
Я вижу, что вы устанавливаете пакет для python3 и для conda. Можете ли вы проверить, какая версия Python используется pyspark? Он должен быть установлен в ./conf/spark-env.sh   -  person Artem Vovsia    schedule 10.10.2019


Ответы (1)


Я столкнулся с подобной проблемой. Некоторые из вещей, которые могут работать:

  1. Проверьте файлы stdout, stderr в EMR, в действиях начальной загрузки. Он упоминается в сводном разделе URI кластера-Сведения о конфигурации-LOG.
  2. Судя по всему, Spacy зависит от Cython и не загружается автоматически. Таким образом, включение следующих команд помогло:
    sudo python3 -m pip install --upgrade pip

    sudo python3 -m pip install --upgrade pip setuptools
    
    sudo python3 -m pip install wheel
    
    sudo python3 -m pip install -U Cython

    sudo python3 -m pip install -U spacy==2.3.5

    sudo python3 -m spacy download en_core_web_sm 
person neha tamore    schedule 16.12.2020