ИСКРА | Создание слишком большого количества файлов деталей

У нас есть мишень HIVE с хранилищем Parquet. Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в цель HIVE.

Мы заметили, что существует около 2000 файлов частей, которые были сгенерированы внутри раздела в HDFS. Такое поведение повлияет на производительность HIVE.

Есть ли альтернатива тому же?

Размер входного файла составляет всего 12 МБ.

Размер блока 128 МБ

С уважением, Шридар Венкатесан


person Sridar V    schedule 12.09.2018    source источник
comment
Не лучший плагин для Informatica. Используйте Spark.   -  person thebluephantom    schedule 13.09.2018
comment
Informatica использует Spark в качестве механизма выполнения, то есть использует Spark в качестве фреймворка для загрузки данных в цель Hive. то, что я хотел бы, это то, что это поведение искры для создания многих файлов частей в разделе   -  person Sridar V    schedule 13.09.2018
comment
Я знаю, но они могли бы справиться лучше. Они утверждают, что позвольте нам справиться с этим.   -  person thebluephantom    schedule 13.09.2018
comment
Я мог видеть что-то, как показано ниже: Общее количество входных путей для обработки: 2000   -  person Sridar V    schedule 13.09.2018
comment
Есть ли способ справиться с этим? Установка какого-либо свойства времени выполнения?   -  person Sridar V    schedule 13.09.2018
comment
Мне нужно знать о варианте использования.   -  person thebluephantom    schedule 13.09.2018
comment
@thebluephantom: Извините за дополнительные вопросы. Как вы думаете, что заставило движок Spark, сконфигурированный в Informatica, генерировать 2000 файлов?   -  person Sridar V    schedule 13.09.2018
comment
Сложно комментировать, так как дни моей работы с информатикой остались позади. Я просто знаю от других, что продукт не предназначен для больших данных.   -  person thebluephantom    schedule 13.09.2018
comment
@SridarV Можете ли вы добавить подробности о его работе. Что это за запрос на вставку и т. Д.? Пример команды должен быть полезен.   -  person moriarty007    schedule 13.09.2018
comment
Похоже, проблема была в команде spark.sql.shuffle.partitions, для которой было установлено значение 2000   -  person Sridar V    schedule 15.09.2018


Ответы (2)


Основная причина была связана с spark.sql.shuffle.partitions

person Sridar V    schedule 17.09.2018

Вам необходимо установить spark.sql.shuffle.partitions = 1 Таким образом, он не будет разбивать файл на несколько файлов разделов. Это также работает с файлами огромного размера.

person abhishek kala    schedule 13.03.2021