Вопросы по теме 'gpgpu'

API драйвера CUDA и среда выполнения CUDA
При написании приложений CUDA вы можете работать либо на уровне драйвера, либо на уровне среды выполнения, как показано на этом изображении (библиотеки CUFFT и CUBLAS для продвинутой математики): (источник: tomshw.it ) Я предполагаю, что...
32298 просмотров
schedule 20.04.2024

Время ожидания приложений CUDA истекает и происходит сбой через несколько секунд - как обойти это?
Я заметил, что приложения CUDA, как правило, имеют максимальное время выполнения 5-15 секунд, прежде чем они выйдут из строя и выйдут из строя. Я понимаю, что идеально не запускать приложение CUDA так долго, но предполагая, что это правильный выбор...
25570 просмотров
schedule 29.03.2024

Запуск OpenCL на оборудовании разных поставщиков
Я играл с реализацией ATI OpenCL в их бета-версии Stream 2.0. OpenCL в текущей бета-версии пока использует только ЦП, предполагается, что следующая версия будет поддерживать ядра графического процессора. Я скачал Stream, потому что на моей рабочей...
5268 просмотров
schedule 05.03.2024

В фрагментном шейдере GLSL, как получить доступ к текселю на определенном уровне MIP-карты?
Я использую OpenGL для выполнения некоторых вычислений GPGPU посредством комбинации одного вершинного шейдера и одного фрагментного шейдера. Мне нужно провести вычисления с изображением в разном масштабе. Я хотел бы использовать MIP-карты, поскольку...
5144 просмотров
schedule 17.12.2023

OpenCL записывает в буфер выбор
Возможный дубликат: Два способа создания объекта буфера в opencl: clCreateBuffer и clCreateBuffer + clEnqueueWriteBuffer В чем разница между копированием данных на устройство сразу после создания буфера и позже? т.е. cl_mem memObj...
1084 просмотров
schedule 25.10.2023

Количество активных деформаций в графическом процессоре (Fermi)
У меня есть небольшой вопрос об активных деформациях в графическом процессоре (я бы предпочел узнать это в Fermi). Для конкретного ядра количество активных варпов в любом цикле SM одинаково для всего времени выполнения ядра? Как я экспериментировал,...
701 просмотров
schedule 18.11.2022

Кажется, предел CUDA достигнут, но какой это предел?
У меня есть программа CUDA, которая, похоже, достигает какого-то предела какого-то ресурса, но я не могу понять, что это за ресурс. Вот функция ядра: __global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap,...
2100 просмотров
schedule 13.05.2024

OpenCL - пустая трата вычислительной мощности хоста
Я новичок в OpenCL, скажите, пожалуйста, что хост-процессор можно использовать только для выделения памяти устройству, или мы можем использовать его как устройство openCL. (Поскольку после того, как распределение будет выполнено, центральный...
376 просмотров
schedule 01.12.2022

физическая память на устройствах AMD: локальная или частная
Я пишу алгоритм на OpenCL, в котором мне нужно, чтобы каждая рабочая единица запоминала изрядную часть данных, скажем, что-то между long[70] и long[200] или около того для каждого ядра. Последние устройства AMD имеют 32 КиБ __local памяти,...
3226 просмотров
schedule 27.10.2022

Копирование 2D-массивов на GPU с известной переменной шириной
Я изучаю, как скопировать 2D-массив переменной ширины для каждой строки в GPU. int rows = 1000; int cols; int** host_matrix = malloc(sizeof(*int)*rows); int *d_array; int *length; ... Каждый host_matrix[i] может иметь разную длину, которую...
2451 просмотров
schedule 16.05.2024

Переключение контекста графического процессора
У меня есть программа, которая сначала визуализирует текстуру, затем передает текстуру вычислительному шейдеру для обработки, а затем визуализирует результат вывода на экран через текстурированный полноэкранный четырехугольник. Я читал в...
1525 просмотров
schedule 08.02.2024

Динамическое распределение разделяемой памяти GPU 2D
Я знаю о динамическом распределении при использовании одномерных массивов, но как это сделать при использовании двумерных массивов? myKernel<<<blocks, threads,sizeofSharedMemoryinBytes>>>(); .... __global__ void...
4033 просмотров
schedule 27.10.2023

Экономьте время, необходимое для cudaHostAlloc
Я пытаюсь выяснить, имеет ли смысл копировать данные в закрепленную память перед их передачей на устройство, поскольку я не имею никакого влияния на распределение моих входных данных (это библиотека). std::vector<int> idata(WORK_SIZE); int...
2486 просмотров
schedule 22.12.2023

Ядро OpenCL выполняется медленнее, чем один поток
Все, я написал очень простое ядро ​​OpenCL, которое преобразует RGB-изображение в оттенки серого с помощью простого усреднения. Немного фона: Изображение хранится в отображаемой памяти в виде 24-битного блока памяти без заполнения. Выходной...
1845 просмотров
schedule 21.10.2022

Как избежать построения элементов по умолчанию в Thrust::device_vector?
Кажется, что при создании нового вектора тяги все элементы равны 0 по умолчанию — я просто хочу подтвердить, что так будет всегда. Если да, то есть ли способ обойти конструктор , ответственный за такое поведение, для дополнительной скорости...
793 просмотров
schedule 06.11.2023

Арифметика пустого указателя OpenCL - странное поведение
Я написал ядро ​​OpenCL, которое использует совместимость opencl-opengl для чтения вершин и индексов, но, вероятно, это даже не важно, потому что я просто выполняю простое добавление указателя, чтобы получить конкретную вершину по индексу. uint...
1047 просмотров
schedule 10.11.2023

Как возможно иметь повторное воспроизведение кэша глобальной памяти более 100%?
У меня есть ядро ​​CUDA, которое я тестировал, и воспроизведение кэша глобальной памяти показало результат 216,9%. Это не совсем имеет для меня смысл. Единственный способ, которым я могу видеть промахи кеша, происходящие более чем на 100%, - это...
300 просмотров
schedule 07.03.2024

Хороший алгоритм сжатия без потерь для небольшого количества данных?
Я ищу хороший алгоритм сжатия без потерь, который может очень быстро сжимать / распаковывать небольшие объемы данных, например 256 чисел с плавающей запятой, которые находятся в диапазоне от 0 до 1. Я знаю RLE, но, возможно, есть что-то получше....
372 просмотров
schedule 11.02.2024

Вложенный цикл С++ AMP
Я работаю над проектом, который требует массивных параллельных вычислений. Однако сложная проблема заключается в том, что проект содержит вложенный цикл, например: for(int i=0; i<19; ++i){ for(int j=0; j<57; ++j){ //the...
932 просмотров
schedule 21.04.2024

Вычисления на GPU на Mac OSX Marvericks с Intel Iris Pro 1024 МБ
У меня есть Mac OS X Marvericks с Intel Iris Pro 1024 МБ, и я выполняю некоторые графические/симуляционные работы в Processing. Я столкнулся с проблемами производительности со встроенной функцией обработки шума перлина. Я планирую использовать GPU...
1335 просмотров
schedule 01.03.2024