Имам CUDA ядро, което извиква серия от функции на устройството.
Какъв е най-добрият начин да получите времето за изпълнение за всяка от функциите на устройството?
Кой е най-добрият начин да получите времето за изпълнение за част от кода в една от функциите на устройството?