У нас есть мишень HIVE с хранилищем Parquet. Задания Informatica BDM настроены на использование искры в качестве механизма выполнения для загрузки данных в цель HIVE.
Мы заметили, что существует около 2000 файлов частей, которые были сгенерированы внутри раздела в HDFS. Такое поведение повлияет на производительность HIVE.
Есть ли альтернатива тому же?
Размер входного файла составляет всего 12 МБ.
Размер блока 128 МБ
С уважением, Шридар Венкатесан