Вопросы по теме 'emr'

Как я могу читать и записывать двоичные файлы в Cascading?
Я хочу загрузить некоторые файлы в двоичном формате (например, jpeg, но это может быть любой двоичный формат), как-то обработать его и записать обратно. Я хочу сделать это на хаупе, и я хотел бы написать это поверх каскадной структуры. Существуют...
577 просмотров
schedule 15.12.2023

Можно ли добавить дополнительный ввод на более позднем этапе mrjob?
У меня есть mrjob, который состоит из 3 шагов. Второй шаг ожидает в качестве входных данных результатов первого шага, а также еще некоторого контента из S3. Я понимаю, что я всегда могу «пропустить» его через первый шаг, то есть эммит как есть, и...
80 просмотров
schedule 01.06.2024

Кластер MAPR M7 hbase не заполняет .META. стол
Я нашел причину, по которой кластер MAPR M7 EMR не заполняет HBASE .META. стол. Я также пытался исправить с помощью команды hbck, но безуспешно. Любая помощь будет высоко оценена
63 просмотров
schedule 08.12.2022

Фильтр скребка не работает со скребком и EMR
Я хотел бы отфильтровать все строки, содержащие внутренние, но данные не фильтруются. В моих скриптах свиньи у меня есть: preload = load '$INPUT' as (textline:chararray); filterdata = FILTER preload BY SIZE(textline) > 100; filterInternal =...
155 просмотров
schedule 11.12.2022

Используйте входной кодек gzip для файлов без расширения .gz в Hadoop
Я запускаю задание Hadoop для набора входных файлов, сжатых с помощью gzip. Hadoop должен легко справиться с этим... mapreduce в java - входные файлы gzip К сожалению, в моем случае входные файлы не имеют расширения .gz . Я использую...
861 просмотров

Сбой задания Spark с несколькими контекстами
В приложении spark мы создаем два контекста spark: 1) Для чтения данных из файловой системы. 2) Для подключения и загрузки данных в Cassandra. В одном приложении мы можем запустить только один контекст искры искры, поэтому мы останавливаем...
6218 просмотров

медленный s3Distcp при копировании с s3 на hdfs
Я использую s3disctcp для копирования 31 16 886 файлов (300 ГБ) с S3 в HDFS, и мне потребовалось 4 дня, чтобы просто скопировать 10 48 576 файлов. Я убил задание, и мне нужно понять, как я могу сократить это время или что я делаю неправильный....
1357 просмотров

Отправка приложения Spark через AWS [EMR]
Здравствуйте, я новичок в облачных вычислениях, поэтому прошу прощения за (возможно) глупый вопрос. Мне нужна помощь, чтобы узнать, действительно ли то, что я делаю, выполняется на кластере или только на мастере (бесполезная вещь). ЧТО Я МОГУ...
4335 просмотров

Установка пакетов Python через действия Bootstrap для PySpark в EMR
У меня проблема, которая сводит меня с ума отчасти потому, что она такая простая. Итак, у меня есть задание ETL, которое я хотел бы выполнить с помощью pySpark в EMR. Проблема в том, что мне нужно установить пакеты, такие как: numpy,...
1273 просмотров

Jupyter + EMR + Spark - подключение к кластеру EMR из ноутбука Jupyter на локальном компьютере
Я новичок в PySpark и EMR. Я пытаюсь получить доступ к Spark, работающему в кластере EMR, через ноутбук Jupyter, но возникают ошибки. Я создаю SparkSession, используя следующий код: spark = SparkSession.builder \ .master("local[*]")\...
1175 просмотров
schedule 08.04.2024

s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.
Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7. Когда я...
547 просмотров
schedule 09.10.2022

AWS EMR Presto не находит правильные схемы Hive с помощью AWS Glue
Итак, у меня возникла проблема с выполнением запросов Presto через AWS EMR. Я запустил EMR с запущенным hive / presto и использую AWS Glue в качестве хранилища метаданных. Когда я подключаюсь по SSH к главному узлу и запускаю куст, я могу...
1596 просмотров
schedule 12.03.2024

HIVE ORC возвращает NULL
Я создаю внешнюю таблицу ORC куста (файл ORC, расположенный на S3). Команда CREATE EXTERNAL TABLE Table1 (Id INT, Name STRING) STORED AS ORC LOCATION 's3://bucket_name' После выполнения запроса : Select * from Table1;...
1744 просмотров
schedule 30.09.2022