Вопросы по теме 'avx'

Как заставить gcc использовать все регистры SSE (или AVX)?
Я пытаюсь написать некоторый ресурсоемкий код для цели Windows x64, с SSE или новыми инструкциями AVX, компилируя в GCC 4.5.2 и 4.6.1, MinGW64 (сборка TDM GCC и некоторые пользовательские сборки). Мои параметры компилятора -O3 -mavx ....
6967 просмотров
schedule 05.11.2022

Предоставляет ли .NET Framework 4.5 поддержку SSE4/AVX?
Кажется, я слышал об этом, но не знаю, где. upd: я рассказал о JiT
2755 просмотров
schedule 01.11.2022

Как суммировать __m256 по горизонтали?
Я хотел бы горизонтально суммировать компоненты вектора __m256 , используя инструкции AVX. В SSE я мог бы использовать _mm_hadd_ps(xmm,xmm); _mm_hadd_ps(xmm,xmm); чтобы получить результат в первом компоненте вектора, но это не...
9533 просмотров
schedule 16.02.2024

Можно ли создавать большой массив значений AVX / SSE?
Я распараллеливаю определенную проблему динамического программирования, используя инструкции AVX2 / SSE. В основной итерации моих вычислений я вычисляю столбец в матрице, где каждая ячейка представляет собой структуру регистров AVX2 ( _m256i ). Я...
967 просмотров
schedule 18.09.2022

Векторная инструкция Intel для расширения нулями 8 4-битных значений, упакованных в 32-битное int, до __m256i?
как говорится в вопросе, у меня есть нормальный int, который состоит из 8 упакованных значений по 4 бита каждое, и я хотел бы расширить его до 256-битного векторного регистра. Возможно ли это с sse / avx / avx2?
321 просмотров
schedule 12.04.2024

Я хотел бы улучшить производительность этого кода с помощью AVX
Я профилировал свой код, и самая дорогая часть кода — это цикл, включенный в пост. Я хочу улучшить производительность этого цикла с помощью AVX. Я попытался развернуть цикл вручную, и, хотя это и повышает производительность, улучшения...
184 просмотров

кратчайший способ найти абсолютный минимум. из двух чисел и умножьте его на знаки его входов в AVX
Любой намек на то, как реализовать AVX для логики ниже C без умножения, for(int i = 0;i<4096;i++) { out[i] = sign(inp1[i])*sign(inp2[i])*min(abs(inp1[i]), abs(inp2[i])); } // inp1, inp2 и out — 16-битные регистры.
105 просмотров
schedule 27.03.2024

Существует ли AVX/AVX2 на каждом ядре?
Итак, эта штука с AVX — это как маленькая машина для каждого ядра? Или это просто как один движок для всего процессора? Мол, можно ли как-то использовать его на каждом ядре? Я играю с этим, и я чувствую, что могу злоупотребить им и создать своего...
449 просмотров
schedule 05.02.2024