Вопросы по теме 'avx'
Как заставить gcc использовать все регистры SSE (или AVX)?
Я пытаюсь написать некоторый ресурсоемкий код для цели Windows x64, с SSE или новыми инструкциями AVX, компилируя в GCC 4.5.2 и 4.6.1, MinGW64 (сборка TDM GCC и некоторые пользовательские сборки). Мои параметры компилятора -O3 -mavx ....
6967 просмотров
schedule
05.11.2022
Предоставляет ли .NET Framework 4.5 поддержку SSE4/AVX?
Кажется, я слышал об этом, но не знаю, где.
upd: я рассказал о JiT
2755 просмотров
schedule
01.11.2022
Как суммировать __m256 по горизонтали?
Я хотел бы горизонтально суммировать компоненты вектора __m256 , используя инструкции AVX. В SSE я мог бы использовать
_mm_hadd_ps(xmm,xmm);
_mm_hadd_ps(xmm,xmm);
чтобы получить результат в первом компоненте вектора, но это не...
9533 просмотров
schedule
16.02.2024
Можно ли создавать большой массив значений AVX / SSE?
Я распараллеливаю определенную проблему динамического программирования, используя инструкции AVX2 / SSE.
В основной итерации моих вычислений я вычисляю столбец в матрице, где каждая ячейка представляет собой структуру регистров AVX2 ( _m256i ). Я...
967 просмотров
schedule
18.09.2022
Векторная инструкция Intel для расширения нулями 8 4-битных значений, упакованных в 32-битное int, до __m256i?
как говорится в вопросе, у меня есть нормальный int, который состоит из 8 упакованных значений по 4 бита каждое, и я хотел бы расширить его до 256-битного векторного регистра. Возможно ли это с sse / avx / avx2?
321 просмотров
schedule
12.04.2024
Я хотел бы улучшить производительность этого кода с помощью AVX
Я профилировал свой код, и самая дорогая часть кода — это цикл, включенный в пост. Я хочу улучшить производительность этого цикла с помощью AVX. Я попытался развернуть цикл вручную, и, хотя это и повышает производительность, улучшения...
184 просмотров
schedule
06.05.2024
кратчайший способ найти абсолютный минимум. из двух чисел и умножьте его на знаки его входов в AVX
Любой намек на то, как реализовать AVX для логики ниже C без умножения,
for(int i = 0;i<4096;i++)
{
out[i] = sign(inp1[i])*sign(inp2[i])*min(abs(inp1[i]), abs(inp2[i]));
}
// inp1, inp2 и out — 16-битные регистры.
105 просмотров
schedule
27.03.2024
Существует ли AVX/AVX2 на каждом ядре?
Итак, эта штука с AVX — это как маленькая машина для каждого ядра? Или это просто как один движок для всего процессора?
Мол, можно ли как-то использовать его на каждом ядре? Я играю с этим, и я чувствую, что могу злоупотребить им и создать своего...
449 просмотров
schedule
05.02.2024