Вопросы по теме 'amazon-emr'

Чтение больших файлов с помощью mapreduce в Hadoop
У меня есть код, который читает файлы с FTP-сервера и записывает их в HDFS . Я реализовал настроенный InputFormatReader , который устанавливает свойство isSplitable ввода как false . Однако это дает мне следующую ошибку. INFO mapred.MapTask:...
1923 просмотров

Как S3 присваивает метку времени при загрузке?
У нас есть процесс загрузки файлов на S3. На самом деле он косвенный. Мы используем Amazon Elastic MapReduce (EMR), а Hadoop фиксирует файлы в S3 из множества разных узлов задач. Затем, после успешного завершения этого задания Hadoop, другая часть...
7473 просмотров
schedule 18.11.2023

Как установить Cloudera Impala на EMR?
В любом случае, я могу установить единственную импалу без менеджера cloudera и без cdh. Я буду использовать версию Hadoop для Apache?
2670 просмотров
schedule 22.10.2022

Как можно указать несколько файлов с помощью -files в интерфейсе командной строки Amazon для EMR?
Я пытаюсь запустить кластер amazon через интерфейс командной строки amazon, но я немного запутался, как указать несколько файлов. Мой текущий вызов выглядит следующим образом: aws emr create-cluster --steps Type=STREAMING,Name='Intra country...
2257 просмотров

как создать кластер Amazon EMR из командной строки в Ubuntu?
как создать кластер Amazon EMR из командной строки в Ubuntu? У меня есть закрытый ключ, ключ доступа и файл pem? .... Может ли кто-нибудь помочь мне, как запустить пример подсчета слов из командной строки
2164 просмотров
schedule 11.02.2024

FAILED: ParseException: невозможно распознать ввод рядом с «exchange» «string» «,» в спецификации столбца
Я использую последнюю версию AWS Hive 0.13.0 . FAILED: ParseException: cannot recognize input near 'exchange' 'string' ',' in column specification Я получаю указанную выше ошибку, когда запускаю запрос ниже (создание таблицы). CREATE...
13199 просмотров

Запуск скрипта подсчета слов Pig на Amazon EMR с ошибкой
ниже приведен пример моего кода. Я пытаюсь сделать демонстрацию количества слов Ветхого Завета. Когда я пытаюсь запустить этот код через Amazon EMR, этот шаг не выполняется. Я загрузил код в EMR в виде простого текстового файла, и все мои пути...
339 просмотров

Добавление шага или действия начальной загрузки в EMR 3.10 для копирования файла с локального на s3
Я использую Amazon EMR 3.10 для своих целей, когда я хочу скопировать файл с локального компьютера на Amazon S3 ... Я использую "script-runner.jar", где в аргументах я упоминаю команду в аргументах sudo aws s3 cp /home/hadoop/conf/hdfs-site.xml s3:...
1148 просмотров

Как создать действие начальной загрузки для Impala на EMR
Последняя версия Impala, в которой я могу найти действие начальной загрузки EMR Этот это из 2015 года и устанавливает Impala 2.2.0 Есть ли простой способ обновить это до 2.7 или 2.8? Развернуть коробку Ubuntu 14.04 для сборки — это один из...
304 просмотров
schedule 18.01.2024

s3-dist-cp завершается с ошибкой OutOfMemoryException при обновлении с EMR 5.7 до EMR 5.8.
Я использовал s3-dist-cp для перемещения сжатых файлов JSON из S3 в HDFS в рамках более крупной работы. Я начал с EMR 5.4 и обновился до большинства версий 5.x. В настоящее время я без проблем запускаю кластер из 32 машин с EMR 5.7. Когда я...
547 просмотров
schedule 09.10.2022

сценарий начальной загрузки для загрузки зависимостей jar в искровом кластере EMR
Я хочу сделать что-то действительно простое (я думаю). Я запускаю свою пользовательскую банку в EMR Spark. Сейчас я делаю что-то вроде sbt assembly и создается толстая банка (80–120 МБ), которую сложно загрузить в S3. Я хочу использовать...
636 просмотров
schedule 02.11.2023

Создание таблицы Hive поверх нескольких файлов паркета в s3
У нас есть набор данных в формате s3 (файлы паркета) в формате ниже, данные разделены на несколько файлов паркета в зависимости от номера строки. data1_1000000.parquet data1000001_2000000.parquet data2000001_3000000.parquet ... У нас есть...
6997 просмотров
schedule 10.12.2023

ImportError: Нет модуля с именем pandas в Zeppelin (EMR)
У меня есть кластер EMR со Spark/Hive/Zeppelin. В своем блокноте Zeppelin я попытался импортировать панд: import pandas as pd Но я получил эту ошибку: ImportError: No module named pandas Как я могу решить эту проблему? Это потому,...
1629 просмотров
schedule 02.11.2022

получить ip главного узла emr из yarn cli
Чтобы получить список IP-адресов подчиненных узлов emr, необходимо запустить следующий код: yarn node -list 2>/dev/null \ | sed -n "s/^\(ip[^:]*\):.*/\1/p" yarn node -list выводит IP-адрес главного узла на stderr : 19/04/02...
980 просмотров

Datasource V2 Reader (структурированная потоковая передача Spark) — смещения не по порядку
В настоящее время я реализую два пользовательских считывателя, используя API V2 для задания структурированной потоковой передачи искры. После того, как задание работает в течение ~ 30-60 минут, оно выдает: Caused by: java.lang.RuntimeException:...
305 просмотров

Spark как механизм исполнения с Hive
Можно ли использовать Spark 2.4.2 в качестве механизма выполнения с hive 2.3.4 в Amazon EMR? Я связал файлы jar с ульем (scala-library, spark-core, spark-common-network) с помощью следующих команд: cd $HIVE_HOME/lib ln -s...
572 просмотров
schedule 31.05.2024

Шаг Spark в AWS EMR завершается с ошибкой exitCode 13
Я немного экспериментирую с EMR. Я пытаюсь запустить очень простую искровую программу. from pyspark.sql.types import IntegerType mylist = [1, 2, 3, 4] df = spark.createDataFrame(mylist, IntegerType()).show() df.write.parquet('/path/to/save',...
745 просмотров
schedule 30.10.2022

Как установить User-Agent (префикс) для каждого запроса на загрузку на S3 из приложения Amazon EMR
AWS потребовал, чтобы продукт, над которым я работаю, определял запросы, которые он отправляет к ресурсам S3 наших пользователей от их имени, чтобы они могли оценить их влияние. Для этого мы должны установить заголовок User-Agent для каждого...
372 просмотров
schedule 11.05.2024

EMR PySpark ModuleNotFoundError: нет модуля с именем «spacy»
Я безуспешно пытался установить Spacy в свой кластер EMR для запуска задания Pyspark. Мои действия по начальной загрузке в EMR выглядят примерно так pip install --upgrade pip sudo conda install -c conda-forge spacy sudo python3 -m spacy download...
380 просмотров
schedule 02.12.2023

В AWS EMR Jupyter Notebook, как изменить пользователя с livy на hadoop
Я создал кластер AWS EMR и загрузил, sparkify_log_small.json И создал EMR Jupyter Notebook с приведенным ниже кодом, думая, что он будет читать из домашнего каталога пользователя ( hadoop ). sparkify_log_data = "sparkify_log_small.json"...
724 просмотров