Rcpp и CULA: грешка в сегментирането

Извлякох съответните битове от gputools R-пакета, за да стартирам QR декомпозиция на моя GPU с помощта на Rcpp чрез динамично зареждане на споделена библиотека, която се свързва с culatools. Всичко работи гладко в терминала и R.app на моя Mac. Резултатите са съгласни с функцията qr() на R, но проблемът е, че възниква грешка в сегментирането при излизане от R.app (грешката не се случва при използване на терминала):

*** caught segfault *** address 0x10911b050, cause 'memory not mapped'

Мисля, че ограничих проблема до указателите „a“ и „tau“ във файла .c, който препраща към culatools:

#include<cula.h> void gpuQR(const int *m, const int *n, float *a, const int *lda, float *tau) { culaInitialize(); culaSgeqrf(m[0], n[0], a, lda[0], tau); culaShutdown(); }

Компилирах .c файла на моя Mac с помощта на:

/usr/local/cuda/bin/nvcc -gencode arch=compute_10,code=sm_10 -gencode arch=compute_11,code=sm_11 -gencode arch=compute_12,code=sm_12 -gencode arch=compute_13,code=sm_13 -gencode arch=compute_20,code=sm_20 -c -I. -I/usr/local/cula/include -m64 -Xcompiler -fPIC gpuQR.c -o gpuQR.o /usr/local/cuda/bin/nvcc -gencode arch=compute_10,code=sm_10 -gencode arch=compute_11,code=sm_11 -gencode arch=compute_12,code=sm_12 -gencode arch=compute_13,code=sm_13 -gencode arch=compute_20,code=sm_20 -shared -m64 -Xlinker -rpath,/usr/local/cula/lib64 -L/usr/local/cula/lib64 -lcula_core -lcula_lapack -lcublas -o gpuQR.so gpuQR.o

Написах .cpp файл, който използва Rcpp и динамично зарежда споделената библиотека gpuQR.so:

#include <Rcpp.h> #include <dlfcn.h> using namespace Rcpp; using namespace std; typedef void (*func)(int*, int*, float*, int*, float*); RcppExport SEXP gpuQR_Rcpp(SEXP x_, SEXP n_rows_, SEXP n_cols_) { vector<float> x = as<vector<float> >(x_); int n_rows = as<int>(n_rows_); int n_cols = as<int>(n_cols_); vector<float> scale(n_cols); void* lib_handle = dlopen("path/gpuQR.so", RTLD_LAZY); if (!lib_handle) { Rcout << dlerror() << endl; } else { func gpuQR = (func) dlsym(lib_handle, "gpuQR"); gpuQR(&n_rows, &n_cols, &(x[0]), &n_rows, &(scale[0])); } dlclose(lib_handle); for(int ii = 1; ii < n_rows; ii++) { for(int jj = 0; jj < n_cols; jj++) { if(ii > jj) { y[ii + jj * n_rows] *= scale[jj]; } } } return wrap(x); }

Компилирах .cpp файла в R с помощта на:

library(Rcpp) PKG_LIBS <- sprintf('%s $(LAPACK_LIBS) $(BLAS_LIBS) $(FLIBS)', Rcpp:::RcppLdFlags()) PKG_CPPFLAGS <- sprintf('%s', Rcpp:::RcppCxxFlags()) Sys.setenv(PKG_LIBS = PKG_LIBS , PKG_CPPFLAGS = PKG_CPPFLAGS) R <- file.path(R.home(component = 'bin'), 'R') file <- 'path/gpuQR_Rcpp.cpp' cmd <- sprintf('%s CMD SHLIB %s', R, paste(file, collapse = ' ')) system(cmd)

и пусна пример:

dyn.load('path/gpuQR_Rcpp.so') set.seed(100) A <- matrix(rnorm(9), 3, 3) n_row <- nrow(A) n_col <- ncol(A) res <- .Call('gpuQR_Rcpp', c(A), n_row, n_col) matrix(res, n_row, n_col) [,1] [,2] [,3] [1,] 0.5250958 -0.8666927 0.8594266 [2,] -0.2504899 -0.3878644 -0.1277837 [3,] 0.1502908 0.4742033 -0.8804248 qr(A)$qr [,1] [,2] [,3] [1,] 0.5250957 -0.8666925 0.8594266 [2,] -0.2504899 -0.3878643 -0.1277838 [3,] 0.1502909 0.4742033 -0.8804247

Някой има ли идея как да поправя грешката в сегментирането?

r cuda rcpp cula

chris    29.07.2013    източник

comment

Защо използвате nvcc за компилиране на вашия код? Ако това е обикновен C код, можете (и вероятно трябва) да използвате хост C компилатора. nvcc използва маршрут за компилиране на C++ хост по подразбиране. Това може да не е това, което искате.   -   talonmies    29.07.2013

comment

Току-що използвах това, което използва пакетът gputools R. Всъщност Nvidia документация казва следното относно това: ... nvcc имитира поведението на GNU компилатора gcc: той приема набор от конвенционални опции на компилатора, като например за дефиниране на макроси и пътища за включване/библиотека и за управление на процеса на компилиране. Всички стъпки за компилиране, различни от CUDA, се препращат към C компилатор с общо предназначение, който се поддържа от nvcc, ...   -   chris    29.07.2013

comment

Да, разбирам го напълно. Но имайте предвид, че компилаторът с общо предназначение е C++ компилатор, а не C компилатор. Така че вашият C код се компилира с C++ компилатор. През повечето време това няма значение, но понякога има. Това може да е един от онези моменти...   -   talonmies    29.07.2013

comment

Компилирах го с помощта на gcc компилатора: gcc -c -I/usr/local/cula/include gpuQR.c и gcc -shared -Wl,-rpath,/usr/local/cula/lib64 -L/usr/local/cula/lib64 -lcula_lapack -o gpuQR.so gpuQR.o, но грешката в сегментирането продължава.   -   chris    29.07.2013

comment

Премахнах реда dlclose(lib_handle) и грешката в сегментирането спира да се появява. Мисля, че това е отговорът на проблема!   -   chris    29.07.2013

comment

Моля, публикувайте какво сте направили, за да го коригирате като отговор (вместо да редактирате въпроса си. Добре е да отговорите на собствения си въпрос в случаи като тези). Тогава ще гласувам за отговора ви.   -   Robert Crovella    30.07.2013

comment

Добре! Не бях сигурен дали това е правилният начин.   -   chris    30.07.2013

Отговори (2)

arrow_upward
1
arrow_downward

Проблемът се решава чрез изтриване

dlclose(lib_handle);

от .cpp файл. Това води до следното:

#include <Rcpp.h> #include <dlfcn.h> using namespace Rcpp; using namespace std; typedef void (*func)(int*, int*, float*, int*, float*); RcppExport SEXP gpuQR_Rcpp(SEXP x_, SEXP n_rows_, SEXP n_cols_) { vector<float> x = as<vector<float> >(x_); int n_rows = as<int>(n_rows_); int n_cols = as<int>(n_cols_); vector<float> scale(n_cols); void* lib_handle = dlopen("path/gpuQR.so", RTLD_LAZY); if (!lib_handle) { Rcout << dlerror() << endl; } else { func gpuQR = (func) dlsym(lib_handle, "gpuQR"); gpuQR(&n_rows, &n_cols, &(x[0]), &n_rows, &(scale[0])); } for(int ii = 1; ii < n_rows; ii++) { for(int jj = 0; jj < n_cols; jj++) { if(ii > jj) { x[ii + jj * n_rows] *= scale[jj]; } } } return wrap(x); }

.cpp файлът може да бъде компилиран в R с помощта на:

library(Rcpp) PKG_LIBS <- sprintf('%s $(LAPACK_LIBS) $(BLAS_LIBS) $(FLIBS)', Rcpp:::RcppLdFlags()) PKG_CPPFLAGS <- sprintf('%s', Rcpp:::RcppCxxFlags()) Sys.setenv(PKG_LIBS = PKG_LIBS , PKG_CPPFLAGS = PKG_CPPFLAGS) R <- file.path(R.home(component = 'bin'), 'R') file <- 'path/gpuQR_Rcpp.cpp' cmd <- sprintf('%s CMD SHLIB %s', R, paste(file, collapse = ' ')) system(cmd)

Действителният .c файл с връзка към culatools е:

#include<cula.h> void gpuQR(const int *m, const int *n, float *a, const int *lda, float *tau) { culaInitialize(); culaSgeqrf(m[0], n[0], a, lda[0], tau); culaShutdown(); }

Може да се компилира с помощта на:

gcc -c -I/usr/local/cula/include gpuQR.c gcc -shared -Wl,-rpath,/usr/local/cula/lib64 -L/usr/local/cula/lib64 -lcula_lapack -o gpuQR.so gpuQR.o

След това разлагането на QR може да се извърши в R с помощта на:

dyn.load('path/gpuQR_Rcpp.so') set.seed(100) n_row <- 3 n_col <- 3 A <- matrix(rnorm(n_row * n_col), n_row, n_col) res <- .Call('gpuQR_Rcpp', c(A), n_row, n_col) matrix(res, n_row, n_col) [,1] [,2] [,3] [1,] 0.5250958 -0.8666927 0.8594266 [2,] -0.2504899 -0.3878644 -0.1277837 [3,] 0.1502908 0.4742033 -0.8804248 qr(A)$qr [,1] [,2] [,3] [1,] 0.5250957 -0.8666925 0.8594266 [2,] -0.2504899 -0.3878643 -0.1277838 [3,] 0.1502909 0.4742033 -0.8804247

Ето резултатите от бенчмарк с NVIDIA GeForce 9400M GPU с 16 CUDA ядра:

n_row <- 1000; n_col <- 1000 A <- matrix(rnorm(n_row * n_col), n_row, n_col) B <- A; dim(B) <- NULL res <- benchmark(.Call('gpuQR_Rcpp', B, n_row, n_col), qr(A), columns = c('test', 'replications', 'elapsed', 'relative'), order = 'relative') test replications elapsed relative 1 .Call("gpuQR_Rcpp", B, n_row, n_col) 100 38.037 1.000 2 qr(A) 100 152.575 4.011

chris    30.07.2013

arrow_upward
1
arrow_downward

Всъщност няма нужда да се зарежда динамично споделена библиотека, свързваща се с culatools. Първоначално мислех за това, но не получих компилиран .cpp файл с помощта на Rcpp. Както и да е, новият .cpp файл е:

#include<Rcpp.h> #include<cula.h> using namespace Rcpp; using namespace std; RcppExport SEXP gpuQR_Rcpp(SEXP x_, SEXP n_rows_, SEXP n_cols_) { vector<float> x = as<vector<float> >(x_); int n_rows = as<int>(n_rows_); int n_cols = as<int>(n_cols_); vector<float> scale(n_cols); culaInitialize(); culaSgeqrf(n_rows, n_cols, &(x[0]), n_rows, &(scale[0])); culaShutdown(); for(int ii = 1; ii < n_rows; ii++) { for(int jj = 0; jj < n_cols; jj++) { if(ii > jj) { x[ii + jj * n_rows] *= scale[jj]; } } } return wrap(x); }

.cpp файлът е компилиран с помощта на:

library(Rcpp) PKG_LIBS <- sprintf('-Wl,-rpath,/usr/local/cula/lib64 -L/usr/local/cula/lib64 -lcula_lapack %s $(LAPACK_LIBS) $(BLAS_LIBS) $(FLIBS)', Rcpp:::RcppLdFlags()) PKG_CPPFLAGS <- sprintf('-I/usr/local/cula/include %s', Rcpp:::RcppCxxFlags()) Sys.setenv(PKG_LIBS = PKG_LIBS , PKG_CPPFLAGS = PKG_CPPFLAGS) R <- file.path(R.home(component = 'bin'), 'R') file <- 'path/gpuQR_inc.cpp' cmd <- sprintf('%s CMD SHLIB %s', R, paste(file, collapse = ' ')) system(cmd)

където задавам подходящия път към culatools. Цялото нещо не работи по-бързо, но вече няма нужда да компилирате споделената библиотека, свързвайки се с culatools и динамично да я зареждате.

Мисля, че това е хубава алтернатива на gputools R-пакета за разширяване на R с C++ и извършване на линейни алгебрични операции на GPU.

chris    31.07.2013

Rcpp и CULA: грешка в сегментирането

Отговори (2)

Подобни въпроси