Мне нужно оптимизировать умножение матриц с помощью SIMD / Intel SSE. Приведенный пример кода выглядит так:
*x = (float*)memalign(16, size * sizeof(float));
Однако я использую C ++ и [found that][1]
I вместо malloc
(перед выполнением SIMD) я должен использовать new
. Теперь я продолжаю оптимизацию с помощью SIMD / SSE, поэтому мне нужна выровненная память, поэтому вопрос: нужен ли мне _5 _ / _ 6_ или мой массив объявлен как
static float m1[SIZE][SIZE];
уже выровнен? (SIZE
- это целое число)