ИСКРА | Создание слишком большого количества файлов деталей

У нас есть мишень HIVE с хранилищем Parquet. Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в цель HIVE.

Мы заметили, что существует около 2000 файлов частей, которые были сгенерированы внутри раздела в HDFS. Такое поведение повлияет на производительность HIVE.

Есть ли альтернатива тому же?

Размер входного файла составляет всего 12 МБ.

Размер блока 128 МБ

С уважением, Шридар Венкатесан

Sridar V 12.09.2018 источник

comment

Не лучший плагин для Informatica. Используйте Spark. - thebluephantom 13.09.2018

comment

Informatica использует Spark в качестве механизма выполнения, то есть использует Spark в качестве фреймворка для загрузки данных в цель Hive. то, что я хотел бы, это то, что это поведение искры для создания многих файлов частей в разделе - Sridar V 13.09.2018

comment

Я знаю, но они могли бы справиться лучше. Они утверждают, что позвольте нам справиться с этим. - thebluephantom 13.09.2018

comment

Я мог видеть что-то, как показано ниже: Общее количество входных путей для обработки: 2000 - Sridar V 13.09.2018

comment

Есть ли способ справиться с этим? Установка какого-либо свойства времени выполнения? - Sridar V 13.09.2018

comment

Мне нужно знать о варианте использования. - thebluephantom 13.09.2018

comment

@thebluephantom: Извините за дополнительные вопросы. Как вы думаете, что заставило движок Spark, сконфигурированный в Informatica, генерировать 2000 файлов? - Sridar V 13.09.2018

comment

Сложно комментировать, так как дни моей работы с информатикой остались позади. Я просто знаю от других, что продукт не предназначен для больших данных. - thebluephantom 13.09.2018

comment

@SridarV Можете ли вы добавить подробности о его работе. Что это за запрос на вставку и т. Д.? Пример команды должен быть полезен. - moriarty007 13.09.2018

comment

Похоже, проблема была в команде spark.sql.shuffle.partitions, для которой было установлено значение 2000 - Sridar V 15.09.2018

Ответы (2)

arrow_upward
0
arrow_downward

Основная причина была связана с spark.sql.shuffle.partitions

Sridar V 17.09.2018

arrow_upward
0
arrow_downward

Вам необходимо установить spark.sql.shuffle.partitions = 1 Таким образом, он не будет разбивать файл на несколько файлов разделов. Это также работает с файлами огромного размера.

abhishek kala 13.03.2021

ИСКРА | Создание слишком большого количества файлов деталей

Ответы (2)

Похожие вопросы