У меня проблема, которая сводит меня с ума отчасти потому, что она такая простая.
Итак, у меня есть задание ETL, которое я хотел бы выполнить с помощью pySpark в EMR. Проблема в том, что мне нужно установить пакеты, такие как: numpy, py-stringmatching и т. Д., И я не могу предварительно установить пакеты перед запуском заданий.
Вот где я:
Установите экземпляр ec2, сегменты s3, успешно запустил кластер Spark с помощью пользовательского интерфейса на AWS. Я попытался использовать приведенный ниже сценарий оболочки для установки чего-либо с помощью «действий начальной загрузки», а затем запустить приложение Spark через «Шаг», сценарии приведены ниже. Они оба живут на S3, и у меня просто точка кластера для каталогов.
boostrap_actions.sh
#!/bin/bash -xe
sudo pip install -U py-stringmatching
check_numpy.py
import numpy as np
... он не работает при запуске check_numpy.py в качестве "шага". Пожалуйста, lmk, если вы знаете что-нибудь об этом или можете указать мне правильное направление.