Вопросы по теме 'emr'
Как я могу читать и записывать двоичные файлы в Cascading?
Я хочу загрузить некоторые файлы в двоичном формате (например, jpeg, но это может быть любой двоичный формат), как-то обработать его и записать обратно. Я хочу сделать это на хаупе, и я хотел бы написать это поверх каскадной структуры.
Существуют...
577 просмотров
schedule
15.12.2023
Можно ли добавить дополнительный ввод на более позднем этапе mrjob?
У меня есть mrjob, который состоит из 3 шагов. Второй шаг ожидает в качестве входных данных результатов первого шага, а также еще некоторого контента из S3.
Я понимаю, что я всегда могу «пропустить» его через первый шаг, то есть эммит как есть, и...
80 просмотров
schedule
01.06.2024
Кластер MAPR M7 hbase не заполняет .META. стол
Я нашел причину, по которой кластер MAPR M7 EMR не заполняет HBASE .META. стол. Я также пытался исправить с помощью команды hbck, но безуспешно. Любая помощь будет высоко оценена
63 просмотров
schedule
08.12.2022
Фильтр скребка не работает со скребком и EMR
Я хотел бы отфильтровать все строки, содержащие внутренние, но данные не фильтруются. В моих скриптах свиньи у меня есть:
preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal =...
155 просмотров
schedule
11.12.2022
Используйте входной кодек gzip для файлов без расширения .gz в Hadoop
Я запускаю задание Hadoop для набора входных файлов, сжатых с помощью gzip. Hadoop должен легко справиться с этим... mapreduce в java - входные файлы gzip
К сожалению, в моем случае входные файлы не имеют расширения .gz . Я использую...
861 просмотров
schedule
11.03.2024
Сбой задания Spark с несколькими контекстами
В приложении spark мы создаем два контекста spark:
1) Для чтения данных из файловой системы.
2) Для подключения и загрузки данных в Cassandra.
В одном приложении мы можем запустить только один контекст искры искры, поэтому мы останавливаем...
6218 просмотров
schedule
12.06.2024
медленный s3Distcp при копировании с s3 на hdfs
Я использую s3disctcp для копирования 31 16 886 файлов (300 ГБ) с S3 в HDFS, и мне потребовалось 4 дня, чтобы просто скопировать 10 48 576 файлов. Я убил задание, и мне нужно понять, как я могу сократить это время или что я делаю неправильный....
1357 просмотров
schedule
10.02.2024
Отправка приложения Spark через AWS [EMR]
Здравствуйте, я новичок в облачных вычислениях, поэтому прошу прощения за (возможно) глупый вопрос. Мне нужна помощь, чтобы узнать, действительно ли то, что я делаю, выполняется на кластере или только на мастере (бесполезная вещь).
ЧТО Я МОГУ...
4335 просмотров
schedule
24.12.2023
Установка пакетов Python через действия Bootstrap для PySpark в EMR
У меня проблема, которая сводит меня с ума отчасти потому, что она такая простая.
Итак, у меня есть задание ETL, которое я хотел бы выполнить с помощью pySpark в EMR. Проблема в том, что мне нужно установить пакеты, такие как: numpy,...
1273 просмотров
schedule
21.12.2023
Jupyter + EMR + Spark - подключение к кластеру EMR из ноутбука Jupyter на локальном компьютере
Я новичок в PySpark и EMR. Я пытаюсь получить доступ к Spark, работающему в кластере EMR, через ноутбук Jupyter, но возникают ошибки.
Я создаю SparkSession, используя следующий код:
spark = SparkSession.builder \
.master("local[*]")\...
1175 просмотров
schedule
08.04.2024
s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.
Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7.
Когда я...
547 просмотров
schedule
09.10.2022
AWS EMR Presto не находит правильные схемы Hive с помощью AWS Glue
Итак, у меня возникла проблема с выполнением запросов Presto через AWS EMR.
Я запустил EMR с запущенным hive / presto и использую AWS Glue в качестве хранилища метаданных.
Когда я подключаюсь по SSH к главному узлу и запускаю куст, я могу...
1596 просмотров
schedule
12.03.2024
HIVE ORC возвращает NULL
Я создаю внешнюю таблицу ORC куста (файл ORC, расположенный на S3).
Команда
CREATE EXTERNAL TABLE Table1 (Id INT, Name STRING) STORED AS ORC LOCATION 's3://bucket_name'
После выполнения запроса :
Select * from Table1;...
1744 просмотров
schedule
30.09.2022