Разбивка данных HDF5 DataSet и размер плиты

Мы оцениваем производительность HDF5 в отношении наборов данных по фрагментам. В частности, мы пытаемся выяснить, возможно ли чтение из разных смежных блоков и как это влияет на производительность? Например. у нас есть набор данных с размером блока 10, набор данных со 100 значениями и мы хотим прочитать значения от 23 до 48. Будет ли большая потеря производительности?

Большое спасибо!


person usac    schedule 24.07.2009    source источник


Ответы (1)


Я не знаю, как конкретно ответить на ваш вопрос, но я предлагаю вам использовать размер блока 1024 (или любую более высокую степень двойки). Я не знаю, как устроен HDF5, но исходя из моих знаний файловых систем и проведенного нами грубого теста, 1024 было как раз.

person Stefano Borini    schedule 25.07.2009
comment
Большое спасибо за ваш ответ! Я уже заметил, что размер блока сам по себе является важным фактором производительности. Как вы упомянули, размер блока ›1000 - хорошая отправная точка. Я пытаюсь понять, как влияет на производительность при чтении непрерывных данных из разных фрагментов. Но боюсь, что это вопрос, на который нельзя дать конкретного ответа. Поэтому нам придется провести несколько тестов. - person usac; 27.07.2009