Я хотел бы спросить об эффекте записи в глобальную память в CUDA. Известно, что чтение глобальной памяти часто сильно влияет на производительность (объединение, кэши, конфликты банков), так как может потребовать довольно много циклов ожидания поступающей памяти, что может в какой-то момент заблокировать выполнение.
А как насчет записи памяти в CUDA? Страдает ли он от какого-либо шаблона записи в память? Является ли общая стоимость непосредственно суммой всех операций записи в ядре?
Любые связанные ссылки и комментарии будут оценены.