Имам вече паралелизирано CUDA ядро, което изпълнява някои задачи, които изискват честа интерполация.
Така че има ядро
__global__ void complexStuff(...)
който извиква един или повече пъти тази функция на устройството за интерполация:
__device__ void interpolate(...)
Алгоритъмът за интерполация прави WENO интерполация последователно върху три измерения. Това е силно паралелизируема задача, която спешно бих искал да паралелизирам!
Ясно е, че ядрото complexStuff()
може лесно да бъде паралелизирано чрез извикване от кода на хоста, използвайки синтаксиса <<<...>>>
. Също така е важно complexStuff()
вече да е паралелизиран.
Но не ми е ясно как да паралелизирам нещо / да създам нови нишки от функцията на CUDA устройство ... възможно ли е това? Някой знае ли?