Вопросы по теме 'aws-glue'

Использование ETL для агрегирования
Мне не удалось найти прямых ответов, поэтому я подумал, что спрошу здесь. Можно ли использовать ETL, например, AWS Glue, для выполнения агрегирования, чтобы снизить разрешение данных до AVG, MIN, MAX и т. Д. В произвольных временных диапазонах?...
508 просмотров
schedule 25.02.2024

Фильтрация вложенных JSON в AWS Glue
Мы хотели бы использовать задание AWS-Glue для фильтрации сообщений JSON в корзине s3. Вот пример JSON: { "property": {"subproperty1": "A", "subproperty2": "B" }} { "property": {"subproperty1": "C", "subproperty2": "D" }} Мы хотим...
2035 просмотров

HIVE_UNKNOWN_ERROR при выполнении запроса AWS Athena в таблице Glue (RDS)
Я получаю сообщение об ошибке при выполнении запроса Athena к таблице Glue, созданной из базы данных RDS: HIVE_UNKNOWN_ERROR: невозможно создать формат ввода Таблицы создаются с помощью поискового робота. Таблицы правильно отображаются в...
2229 просмотров

Есть ли способ просто обрезать столбцы при вставке в Redshift через Glue?
У меня есть столбец, который больше, чем тип данных varchar (max), который, насколько я понимаю, является самым большим типом данных, который использует AWS Glue, и получаю сообщение об ошибке «Длина строки превышает длину DDL», когда я пытаюсь...
1418 просмотров

Связь между Glue dpu и максимальным параллелизмом
Я работаю в Amazon EMR более года, но недавно мы перешли на aws glue для обработки данных. Мне трудно понять взаимосвязь между no of dpus и max concurrency , которую мы обеспечиваем при работе с клеем. Например, я создал задание с 2 dpus...
8607 просмотров

Тайм-аут PySpark при попытке перераспределения/записи на паркет (время ожидания фьючерсов истекло через [300 секунд])?
Я запускаю PySpark (на AWS Glue, если это имеет значение). Я получаю ошибки тайм-аута: (похоже, не удается записать на паркет) Полные журналы на https://pastebin.com/TmuAcFx7 File "script_2019-02-06-02-32-43.py", line 197, in <module>...
2080 просмотров

Объект Python Boto3 'StreamingBody' не имеет атрибута 'iter_lines'
Я использую Boto3 для чтения результатов моего запроса Athena в сценарии Python. У меня есть следующий код, который отлично работает в AWS Lambda. def get_athena_results(s3_bucket, s3_output_path, execution_id): s3client =...
3014 просмотров
schedule 09.11.2023

Как перемотать закладки заданий в задании Glue Spark ETL?
Я прочитал здесь , что теперь Glue предоставляет возможность перематывать закладки заданий для задания Spark ETL. Тем не менее, я не смог найти никакой информации о том, как это сделать. Подпараметры в опции «приостановленной» закладки задания...
799 просмотров

Загрузите данные из S3 в Aurora Serverless с помощью AWS Glue.
Согласно Перемещение данных из S3 -> RDS с помощью AWS Glue Я обнаружил, что для добавления соединения к цели данных требуется экземпляр. Однако мой RDS является бессерверным, поэтому доступного экземпляра нет. Поддерживает ли Glue этот случай?
939 просмотров

Преобразование папки данных S3 в секционированное и секционированное хранилище данных
У меня есть папка с ТБ структурированных данных, и все они придерживаются фиксированной схемы. Структура папок такая: s3://main-bucket/ folder-1/ <= One folder will only contain data from one algorithm...
1447 просмотров

Pyspark изменяет значение столбца, если значение из списка находится в другом столбце
У меня есть такой кадр данных: +-------+----------------+ |Name |Source | +-------+----------------+ |Tom |clientA-incoming| |Dick |clientB-incoming| |Harry |c-abc-incoming | и я хотел бы добавить столбец slug , чтобы...
369 просмотров
schedule 17.03.2024

Ошибка подключения при вызове внешнего API из AWS Glue
Я пытаюсь получить доступ к внешнему API из скрипта aws glue. import requests r = requests.get("https://api.github.com/users/hadley/orgs") Я получаю сообщение об ошибке подключения, ConnectionError:...
410 просмотров
schedule 03.02.2024

AWS Glue Dynamic Filtering - фильтрация одного динамического кадра с использованием другого динамического кадра.
Я пытаюсь отфильтровать динамическую фильтрацию на основе данных, находящихся в другом динамическом фрейме, я работаю над пример соединения и отношения , в этом коде динамические кадры человека и членства объединяются по идентификатору, но я хотел бы...
1576 просмотров

Выбор данных из 100 таблиц в AWS Glue/PySpark
У меня есть каталог из 100 таблиц в каталоге AWS Glue формата: user_1 user_2 ... user_100 Каждая таблица имеет такой формат: | id | user_id | date | expense | |----|---------|----------|---------| | 1 | 1 | 20200521 | 200...
197 просмотров

Транспонирование данных с помощью pyspark и aws Glue
Я новичок в pyspark и столкнулся с некоторыми проблемами, связанными с переносом данных. Я использую клей aws для запуска задания. В настоящее время данные выглядят так: +-----------------+-----+------+-----+ | Country |Code |1969 |1979...
116 просмотров

Как получить доступ к ресурсам aws в VPC из клея AWS?
У меня есть задание по склеиванию, которое касается API, размещенного на экземпляре EC2. Проблема в том, что экземпляр EC2 находится в VPC, что блокирует любой публичный доступ. Я попытался создать интерфейс конечной точки в своем VPC, но все еще...
404 просмотров

Как запускать параллельные потоки в AWS Glue PySpark?
У меня есть искровая работа, которая просто извлекает данные из нескольких таблиц с одинаковыми преобразованиями. По сути, цикл for, который выполняет итерацию по списку таблиц, запрашивает таблицу каталога, добавляет метку времени, а затем вставляет...
2122 просмотров

Как извлечь имя столбца и типы данных из Glue Dynamic Dataframe?
Я пытаюсь извлечь имена столбцов и типы данных из динамического фрейма Glue и хотел использовать их в Spark sql. Например: persons = glueContext.create_dynamic_frame.from_catalog( database="legislators",...
526 просмотров

Ошибка при получении ошибки. Ошибка проверки свойства: [Значение свойства {/ TableInput / ViewOriginalText} не соответствует типу {String}] Облачная информация AWS
Я пытаюсь создать внешнее представление, используя данные из таблиц, но получаю ошибку Ошибка проверки свойства: [Значение свойства {/ TableInput / ViewOriginalText} не соответствует типу {String}] при создании представлений в AWS glue с...
691 просмотров

Включение Hive Cache и устранение ошибок
Я пытаюсь включить кеш-улей в Presto, используя следующую конфигурацию, как показано ниже. hive.cache.enabled=true hive.cache.location=/opt/hive-cache Однако я получаю сообщение об ошибке при запуске координатора 20-12-09T21:07:22.229Z...
52 просмотров
schedule 09.01.2024