Оценка размера таблицы HAWQ

У меня есть вопрос по расчету/оценке размера хранилища для таблицы, загружаемой в HAWQ?

У меня есть таблица размером 30 МБ в HIVE, которую я пытаюсь загрузить с помощью PXF в HAWQ, например: создать данные табличного пространства таблицы t2 как select * from hcatalog.default.afs_trvn_mktscn_population;

Таблица в HAWQ занимает 369 МБ памяти? независимо от того, сколько у меня сегментов HAWQ и каков коэффициент репликации HAWQ DFS.replica или коэффициент репликации HDFS? В моем случае даже с 4 сегментами HAWQ или 1 сегментом HAWQ размер таблицы после загрузки составляет 369 МБ.

Я понимаю, что минимальный размер блока составляет 128 МБ, поэтому даже для 30 МБ будет использоваться минимум 128 МБ, но почему > 300 МБ?

Можете ли вы поделиться некоторой информацией об этом?


person Love Malhotra    schedule 25.11.2016    source источник


Ответы (1)


Ваша таблица Hive, вероятно, хранится как ORC со сжатием Snappy, в то время как ваша таблица HAWQ даже не сжата. Вы должны использовать это в своей таблице HAWQ:

with (appendonly=true, orientation=parquet, compresstype=snappy) 
person Jon Roberts    schedule 28.11.2016