Публикации по тематике emr [hadoop, cascading, elastic-map-reduce, emr, mrjob]

Вопросы по теме 'emr'

Как я могу читать и записывать двоичные файлы в Cascading?

Я хочу загрузить некоторые файлы в двоичном формате (например, jpeg, но это может быть любой двоичный формат), как-то обработать его и записать обратно. Я хочу сделать это на хаупе, и я хотел бы написать это поверх каскадной структуры. Существуют...

577 просмотров

15.12.2023

Можно ли добавить дополнительный ввод на более позднем этапе mrjob?

У меня есть mrjob, который состоит из 3 шагов. Второй шаг ожидает в качестве входных данных результатов первого шага, а также еще некоторого контента из S3. Я понимаю, что я всегда могу «пропустить» его через первый шаг, то есть эммит как есть, и...

80 просмотров

mrjob emr

01.06.2024

Кластер MAPR M7 hbase не заполняет .META. стол

Я нашел причину, по которой кластер MAPR M7 EMR не заполняет HBASE .META. стол. Я также пытался исправить с помощью команды hbck, но безуспешно. Любая помощь будет высоко оценена

63 просмотров

hbase mapr emr

08.12.2022

Фильтр скребка не работает со скребком и EMR

Я хотел бы отфильтровать все строки, содержащие внутренние, но данные не фильтруются. В моих скриптах свиньи у меня есть: preload = load '$INPUT' as (textline:chararray); filterdata = FILTER preload BY SIZE(textline) > 100; filterInternal =...

155 просмотров

amazon-web-services apache-pig emr

11.12.2022

Используйте входной кодек gzip для файлов без расширения .gz в Hadoop

Я запускаю задание Hadoop для набора входных файлов, сжатых с помощью gzip. Hadoop должен легко справиться с этим... mapreduce в java - входные файлы gzip К сожалению, в моем случае входные файлы не имеют расширения .gz . Я использую...

861 просмотров

java hadoop mapreduce elastic-map-reduce emr

11.03.2024

Сбой задания Spark с несколькими контекстами

В приложении spark мы создаем два контекста spark: 1) Для чтения данных из файловой системы. 2) Для подключения и загрузки данных в Cassandra. В одном приложении мы можем запустить только один контекст искры искры, поэтому мы останавливаем...

6218 просмотров

java apache-spark spark-cassandra-connector emr

12.06.2024

медленный s3Distcp при копировании с s3 на hdfs

Я использую s3disctcp для копирования 31 16 886 файлов (300 ГБ) с S3 в HDFS, и мне потребовалось 4 дня, чтобы просто скопировать 10 48 576 файлов. Я убил задание, и мне нужно понять, как я могу сократить это время или что я делаю неправильный....

1357 просмотров

amazon-web-services amazon-s3 hdfs s3distcp emr

10.02.2024

Отправка приложения Spark через AWS [EMR]

Здравствуйте, я новичок в облачных вычислениях, поэтому прошу прощения за (возможно) глупый вопрос. Мне нужна помощь, чтобы узнать, действительно ли то, что я делаю, выполняется на кластере или только на мастере (бесполезная вещь). ЧТО Я МОГУ...

4335 просмотров

amazon-web-services cloud apache-spark hdfs emr

24.12.2023

Установка пакетов Python через действия Bootstrap для PySpark в EMR

У меня проблема, которая сводит меня с ума отчасти потому, что она такая простая. Итак, у меня есть задание ETL, которое я хотел бы выполнить с помощью pySpark в EMR. Проблема в том, что мне нужно установить пакеты, такие как: numpy,...

1273 просмотров

amazon-web-services amazon-s3 apache-spark pyspark emr

21.12.2023

Jupyter + EMR + Spark - подключение к кластеру EMR из ноутбука Jupyter на локальном компьютере

Я новичок в PySpark и EMR. Я пытаюсь получить доступ к Spark, работающему в кластере EMR, через ноутбук Jupyter, но возникают ошибки. Я создаю SparkSession, используя следующий код: spark = SparkSession.builder \ .master("local[*]")\...

1175 просмотров

jupyter python pyspark emr

08.04.2024

s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.

Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7. Когда я...

547 просмотров

amazon-s3 amazon-emr emr

09.10.2022

AWS EMR Presto не находит правильные схемы Hive с помощью AWS Glue

Итак, у меня возникла проблема с выполнением запросов Presto через AWS EMR. Я запустил EMR с запущенным hive / presto и использую AWS Glue в качестве хранилища метаданных. Когда я подключаюсь по SSH к главному узлу и запускаю куст, я могу...

1596 просмотров

amazon-web-services hive presto emr

12.03.2024

HIVE ORC возвращает NULL

Я создаю внешнюю таблицу ORC куста (файл ORC, расположенный на S3). Команда CREATE EXTERNAL TABLE Table1 (Id INT, Name STRING) STORED AS ORC LOCATION 's3://bucket_name' После выполнения запроса : Select * from Table1;...

1744 просмотров

null hive orc emr

30.09.2022

Вопросы по теме 'emr'

Похожие вопросы