Вопросы по теме 'amazon-emr'
Чтение больших файлов с помощью mapreduce в Hadoop
У меня есть код, который читает файлы с FTP-сервера и записывает их в HDFS . Я реализовал настроенный InputFormatReader , который устанавливает свойство isSplitable ввода как false . Однако это дает мне следующую ошибку.
INFO mapred.MapTask:...
1923 просмотров
schedule
24.11.2022
Как S3 присваивает метку времени при загрузке?
У нас есть процесс загрузки файлов на S3. На самом деле он косвенный. Мы используем Amazon Elastic MapReduce (EMR), а Hadoop фиксирует файлы в S3 из множества разных узлов задач. Затем, после успешного завершения этого задания Hadoop, другая часть...
7473 просмотров
schedule
18.11.2023
Как установить Cloudera Impala на EMR?
В любом случае, я могу установить единственную импалу без менеджера cloudera и без cdh. Я буду использовать версию Hadoop для Apache?
2670 просмотров
schedule
22.10.2022
Как можно указать несколько файлов с помощью -files в интерфейсе командной строки Amazon для EMR?
Я пытаюсь запустить кластер amazon через интерфейс командной строки amazon, но я немного запутался, как указать несколько файлов. Мой текущий вызов выглядит следующим образом:
aws emr create-cluster --steps Type=STREAMING,Name='Intra country...
2257 просмотров
schedule
15.03.2024
как создать кластер Amazon EMR из командной строки в Ubuntu?
как создать кластер Amazon EMR из командной строки в Ubuntu? У меня есть закрытый ключ, ключ доступа и файл pem? .... Может ли кто-нибудь помочь мне, как запустить пример подсчета слов из командной строки
2164 просмотров
schedule
11.02.2024
FAILED: ParseException: невозможно распознать ввод рядом с «exchange» «string» «,» в спецификации столбца
Я использую последнюю версию AWS Hive 0.13.0 .
FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification
Я получаю указанную выше ошибку, когда запускаю запрос ниже (создание таблицы).
CREATE...
13199 просмотров
schedule
24.03.2024
Запуск скрипта подсчета слов Pig на Amazon EMR с ошибкой
ниже приведен пример моего кода. Я пытаюсь сделать демонстрацию количества слов Ветхого Завета. Когда я пытаюсь запустить этот код через Amazon EMR, этот шаг не выполняется. Я загрузил код в EMR в виде простого текстового файла, и все мои пути...
339 просмотров
schedule
17.01.2024
Добавление шага или действия начальной загрузки в EMR 3.10 для копирования файла с локального на s3
Я использую Amazon EMR 3.10 для своих целей, когда я хочу скопировать файл с локального компьютера на Amazon S3 ... Я использую "script-runner.jar", где в аргументах я упоминаю команду в аргументах sudo aws s3 cp /home/hadoop/conf/hdfs-site.xml s3:...
1148 просмотров
schedule
19.10.2022
Как создать действие начальной загрузки для Impala на EMR
Последняя версия Impala, в которой я могу найти действие начальной загрузки EMR Этот это из 2015 года и устанавливает Impala 2.2.0
Есть ли простой способ обновить это до 2.7 или 2.8? Развернуть коробку Ubuntu 14.04 для сборки — это один из...
304 просмотров
schedule
18.01.2024
s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.
Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7.
Когда я...
547 просмотров
schedule
09.10.2022
сценарий начальной загрузки для загрузки зависимостей jar в искровом кластере EMR
Я хочу сделать что-то действительно простое (я думаю). Я запускаю свою пользовательскую банку в EMR Spark. Сейчас я делаю что-то вроде
sbt assembly
и создается толстая банка (80–120 МБ), которую сложно загрузить в S3.
Я хочу использовать...
636 просмотров
schedule
02.11.2023
Создание таблицы Hive поверх нескольких файлов паркета в s3
У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки.
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
У нас есть...
6997 просмотров
schedule
10.12.2023
ImportError: Нет модуля с именем pandas в Zeppelin (EMR)
У меня есть кластер EMR со Spark/Hive/Zeppelin. В своем блокноте Zeppelin я попытался импортировать панд:
import pandas as pd
Но я получил эту ошибку:
ImportError: No module named pandas
Как я могу решить эту проблему? Это потому,...
1629 просмотров
schedule
02.11.2022
получить ip главного узла emr из yarn cli
Чтобы получить список IP-адресов подчиненных узлов emr, необходимо запустить следующий код:
yarn node -list 2>/dev/null \
| sed -n "s/^\(ip[^:]*\):.*/\1/p"
yarn node -list выводит IP-адрес главного узла на stderr :
19/04/02...
980 просмотров
schedule
03.03.2024
Datasource V2 Reader (структурированная потоковая передача Spark) — смещения не по порядку
В настоящее время я реализую два пользовательских считывателя, используя API V2 для задания структурированной потоковой передачи искры. После того, как задание работает в течение ~ 30-60 минут, оно выдает:
Caused by: java.lang.RuntimeException:...
305 просмотров
schedule
16.11.2023
Spark как механизм исполнения с Hive
Можно ли использовать Spark 2.4.2 в качестве механизма выполнения с hive 2.3.4 в Amazon EMR?
Я связал файлы jar с ульем (scala-library, spark-core, spark-common-network) с помощью следующих команд:
cd $HIVE_HOME/lib
ln -s...
572 просмотров
schedule
31.05.2024
Шаг Spark в AWS EMR завершается с ошибкой exitCode 13
Я немного экспериментирую с EMR. Я пытаюсь запустить очень простую искровую программу.
from pyspark.sql.types import IntegerType
mylist = [1, 2, 3, 4]
df = spark.createDataFrame(mylist, IntegerType()).show()
df.write.parquet('/path/to/save',...
745 просмотров
schedule
30.10.2022
Как установить User-Agent (префикс) для каждого запроса на загрузку на S3 из приложения Amazon EMR
AWS потребовал, чтобы продукт, над которым я работаю, определял запросы, которые он отправляет к ресурсам S3 наших пользователей от их имени, чтобы они могли оценить их влияние.
Для этого мы должны установить заголовок User-Agent для каждого...
372 просмотров
schedule
11.05.2024
EMR PySpark ModuleNotFoundError: нет модуля с именем «spacy»
Я безуспешно пытался установить Spacy в свой кластер EMR для запуска задания Pyspark. Мои действия по начальной загрузке в EMR выглядят примерно так
pip install --upgrade pip
sudo conda install -c conda-forge spacy
sudo python3 -m spacy download...
380 просмотров
schedule
02.12.2023
В AWS EMR Jupyter Notebook, как изменить пользователя с livy на hadoop
Я создал кластер AWS EMR и загрузил,
sparkify_log_small.json
И создал EMR Jupyter Notebook с приведенным ниже кодом, думая, что он будет читать из домашнего каталога пользователя ( hadoop ).
sparkify_log_data = "sparkify_log_small.json"...
724 просмотров
schedule
28.11.2023