Какие алгоритмы сжатия обычно используются при сжатии файла HDF5, созданного без применения каких-либо фильтров сжатия HDF5?
Мои файлы HDF5 созданы с помощью h5py
в Python 3.8 и содержат N-мерные массивы numpy из 32-битных чисел с плавающей запятой в диапазоне от -1,0 до 1,0, похожие на (1000000,10,200)
. Данные считываются как массивы (1,10,200)
в случайном порядке. Фрагментирование наборов данных HDF5, по-видимому, значительно замедляет прерывистое/случайное чтение/выбор, поэтому фрагментирование было отключено, что предотвратило использование фильтров сжатия HDF5.
h5py_cache
. Подробнее оh5py_cache
здесь: stackoverflow.com/a/44961222/10462884. Рассматривали ли вы PyTables (он же модуль таблиц)? У них есть отличное обсуждение алгоритмов оптимизации, фрагментации и сжатия здесь: pytables.org/usersguide/optimization. HTMLа>. Это стоит прочитать. - person kcw78   schedule 23.06.2020