Публикации по тематике amazon-emr [java, amazon-emr, hadoop, mapreduce, elastic-map-reduce]

Вопросы по теме 'amazon-emr'

Чтение больших файлов с помощью mapreduce в Hadoop

У меня есть код, который читает файлы с FTP-сервера и записывает их в HDFS . Я реализовал настроенный InputFormatReader , который устанавливает свойство isSplitable ввода как false . Однако это дает мне следующую ошибку. INFO mapred.MapTask:...

1923 просмотров

24.11.2022

Как S3 присваивает метку времени при загрузке?

У нас есть процесс загрузки файлов на S3. На самом деле он косвенный. Мы используем Amazon Elastic MapReduce (EMR), а Hadoop фиксирует файлы в S3 из множества разных узлов задач. Затем, после успешного завершения этого задания Hadoop, другая часть...

7473 просмотров

amazon-s3 amazon-emr

18.11.2023

Как установить Cloudera Impala на EMR?

В любом случае, я могу установить единственную импалу без менеджера cloudera и без cdh. Я буду использовать версию Hadoop для Apache?

2670 просмотров

amazon-emr hadoop hive cloudera impala

22.10.2022

Как можно указать несколько файлов с помощью -files в интерфейсе командной строки Amazon для EMR?

Я пытаюсь запустить кластер amazon через интерфейс командной строки amazon, но я немного запутался, как указать несколько файлов. Мой текущий вызов выглядит следующим образом: aws emr create-cluster --steps Type=STREAMING,Name='Intra country...

2257 просмотров

amazon-web-services amazon-emr hadoop aws-cli

15.03.2024

как создать кластер Amazon EMR из командной строки в Ubuntu?

как создать кластер Amazon EMR из командной строки в Ubuntu? У меня есть закрытый ключ, ключ доступа и файл pem? .... Может ли кто-нибудь помочь мне, как запустить пример подсчета слов из командной строки

2164 просмотров

amazon-web-services amazon-emr hadoop

11.02.2024

FAILED: ParseException: невозможно распознать ввод рядом с «exchange» «string» «,» в спецификации столбца

Я использую последнюю версию AWS Hive 0.13.0 . FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification Я получаю указанную выше ошибку, когда запускаю запрос ниже (создание таблицы). CREATE...

13199 просмотров

amazon-web-services amazon-emr hadoop hive hadoop-partitioning

24.03.2024

Запуск скрипта подсчета слов Pig на Amazon EMR с ошибкой

ниже приведен пример моего кода. Я пытаюсь сделать демонстрацию количества слов Ветхого Завета. Когда я пытаюсь запустить этот код через Amazon EMR, этот шаг не выполняется. Я загрузил код в EMR в виде простого текстового файла, и все мои пути...

339 просмотров

amazon-web-services amazon-s3 amazon-emr hadoop apache-pig

17.01.2024

Добавление шага или действия начальной загрузки в EMR 3.10 для копирования файла с локального на s3

Я использую Amazon EMR 3.10 для своих целей, когда я хочу скопировать файл с локального компьютера на Amazon S3 ... Я использую "script-runner.jar", где в аргументах я упоминаю команду в аргументах sudo aws s3 cp /home/hadoop/conf/hdfs-site.xml s3:...

1148 просмотров

amazon-web-services amazon-s3 amazon-emr hadoop

19.10.2022

Как создать действие начальной загрузки для Impala на EMR

Последняя версия Impala, в которой я могу найти действие начальной загрузки EMR Этот это из 2015 года и устанавливает Impala 2.2.0 Есть ли простой способ обновить это до 2.7 или 2.8? Развернуть коробку Ubuntu 14.04 для сборки — это один из...

304 просмотров

amazon-emr impala

18.01.2024

s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.

Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7. Когда я...

547 просмотров

amazon-s3 amazon-emr emr

09.10.2022

сценарий начальной загрузки для загрузки зависимостей jar в искровом кластере EMR

Я хочу сделать что-то действительно простое (я думаю). Я запускаю свою пользовательскую банку в EMR Spark. Сейчас я делаю что-то вроде sbt assembly и создается толстая банка (80–120 МБ), которую сложно загрузить в S3. Я хочу использовать...

636 просмотров

amazon-s3 apache-spark amazon-emr sbt

02.11.2023

Создание таблицы Hive поверх нескольких файлов паркета в s3

У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки. data1_1000000.parquet data1000001_2000000.parquet data2000001_3000000.parquet ... У нас есть...

6997 просмотров

parquet apache-spark amazon-emr hadoop hive

10.12.2023

ImportError: Нет модуля с именем pandas в Zeppelin (EMR)

У меня есть кластер EMR со Spark/Hive/Zeppelin. В своем блокноте Zeppelin я попытался импортировать панд: import pandas as pd Но я получил эту ошибку: ImportError: No module named pandas Как я могу решить эту проблему? Это потому,...

1629 просмотров

pandas amazon-emr apache-zeppelin

02.11.2022

получить ip главного узла emr из yarn cli

Чтобы получить список IP-адресов подчиненных узлов emr, необходимо запустить следующий код: yarn node -list 2>/dev/null \ | sed -n "s/^$ip[^:]*$:.*/\1/p" yarn node -list выводит IP-адрес главного узла на stderr : 19/04/02...

980 просмотров

bash amazon-web-services amazon-emr yarn sed

03.03.2024

Datasource V2 Reader (структурированная потоковая передача Spark) — смещения не по порядку

В настоящее время я реализую два пользовательских считывателя, используя API V2 для задания структурированной потоковой передачи искры. После того, как задание работает в течение ~ 30-60 минут, оно выдает: Caused by: java.lang.RuntimeException:...

305 просмотров

apache-spark amazon-emr spark-structured-streaming scala amazon-efs

16.11.2023

Spark как механизм исполнения с Hive

Можно ли использовать Spark 2.4.2 в качестве механизма выполнения с hive 2.3.4 в Amazon EMR? Я связал файлы jar с ульем (scala-library, spark-core, spark-common-network) с помощью следующих команд: cd $HIVE_HOME/lib ln -s...

572 просмотров

apache-spark amazon-emr hadoop scala hive

31.05.2024

Шаг Spark в AWS EMR завершается с ошибкой exitCode 13

Я немного экспериментирую с EMR. Я пытаюсь запустить очень простую искровую программу. from pyspark.sql.types import IntegerType mylist = [1, 2, 3, 4] df = spark.createDataFrame(mylist, IntegerType()).show() df.write.parquet('/path/to/save',...

745 просмотров

pyspark amazon-emr

30.10.2022

Как установить User-Agent (префикс) для каждого запроса на загрузку на S3 из приложения Amazon EMR

AWS потребовал, чтобы продукт, над которым я работаю, определял запросы, которые он отправляет к ресурсам S3 наших пользователей от их имени, чтобы они могли оценить их влияние. Для этого мы должны установить заголовок User-Agent для каждого...

372 просмотров

amazon-emr hadoop

11.05.2024

EMR PySpark ModuleNotFoundError: нет модуля с именем «spacy»

Я безуспешно пытался установить Spacy в свой кластер EMR для запуска задания Pyspark. Мои действия по начальной загрузке в EMR выглядят примерно так pip install --upgrade pip sudo conda install -c conda-forge spacy sudo python3 -m spacy download...

380 просмотров

pip conda pyspark amazon-emr spacy

02.12.2023

В AWS EMR Jupyter Notebook, как изменить пользователя с livy на hadoop

Я создал кластер AWS EMR и загрузил, sparkify_log_small.json И создал EMR Jupyter Notebook с приведенным ниже кодом, думая, что он будет читать из домашнего каталога пользователя ( hadoop ). sparkify_log_data = "sparkify_log_small.json"...

724 просмотров

jupyter-notebook amazon-web-services amazon-emr yarn livy

28.11.2023

Вопросы по теме 'amazon-emr'

Похожие вопросы