Add gemm3D for batch gemm of 3d matrices.

abergeron · abergeron · commit 076718103706 · 2017-06-07T15:40:48.000-04:00
diff --git a/src/gpuarray/buffer_blas.h b/src/gpuarray/buffer_blas.h
@@ -115,15 +115,30 @@ GPUARRAY_PUBLIC int gpublas_hgemmBatch(
   float beta, gpudata **C, size_t *offC, size_t ldc,
   size_t batchCount, int flags);
 
-//TODO: float should be half
-GPUARRAY_PUBLIC int gpublas_hgemmStridedBatch(
+GPUARRAY_PUBLIC int gpublas_hgemm3D(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
   gpudata *A, size_t lda, ssize_t strideA,
   gpudata *B, size_t ldb, ssize_t strideB,
   float beta, gpudata *C, size_t ldc, ssize_t strideC,
   size_t batchCount, int flags);
 
+GPUARRAY_PUBLIC int gpublas_sgemm3D(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, float alpha,
+  gpudata *A, size_t lda, ssize_t strideA,
+  gpudata *B, size_t ldb, ssize_t strideB,
+  float beta, gpudata *C, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
+GPUARRAY_PUBLIC int gpublas_dgemm3D(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, double alpha,
+  gpudata *A, size_t lda, ssize_t strideA,
+  gpudata *B, size_t ldb, ssize_t strideB,
+  double beta, gpudata *C, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
 GPUARRAY_PUBLIC int gpublas_sgemmBatch(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
diff --git a/src/gpuarray_blas_cuda_cublas.c b/src/gpuarray_blas_cuda_cublas.c
@@ -510,37 +510,33 @@ static int hgemm(cb_order order, cb_transpose transA, cb_transpose transB,
   cuda_exit(ctx);
   return GA_NO_ERROR;
 }
-//TODO: change float to half
-static int hgemmStridedBatch(cb_order order, cb_transpose transA, cb_transpose transB,
-			     size_t M, size_t N, size_t K, float alpha,
-			     gpudata *A, size_t lda, ssize_t strideA,
-			     gpudata *B, size_t ldb, ssize_t strideB,
-			     float beta, gpudata *C, size_t ldc, ssize_t strideC,
-			     size_t batchCount) {
+
+static int hgemm3D(cb_order order, cb_transpose transA, cb_transpose transB,
+                   size_t M, size_t N, size_t K, float alpha,
+                   gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+                   gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+                   float beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+                   size_t batchCount) {
   cuda_context *ctx;
   blas_handle *h;
   size_t  t;
-  ssize_t lt;
+  ssize_t st;
   gpudata *T;
   cb_transpose transT;
   cublasStatus_t err;
-  __half halpha, hbeta;
-
-  //ignore overflow, underflow, denormalized and inf values. Mayve also nan.
-  uint32_t x = (uint32_t)alpha;
-  alpha = ((x>>16)&0x8000)|((((x&0x7f800000)-0x38000000)>>13)&0x7c00)|((x>>13)&0x03ff);
-  x = (uint32_t)beta;
-  beta = ((x>>16)&0x8000)|((((x&0x7f800000)-0x38000000)>>13)&0x7c00)|((x>>13)&0x03ff);
-  
+  ga_half_t halpha, hbeta;
+
   ASSERT_BUF(A);
-  if (cublasHgemmStridedBatched == NULL)
-    return GA_DEVSUP_ERROR;
+  ASSERT_BUF(B);
+  ASSERT_BUF(C);
 
   ctx = A->ctx;
-  // TODO: stride* are long long int in cuda, LARGE_VAL check for int.
+
+  if (cublasHgemmStridedBatched == NULL)
+    return error_set(ctx->error, GA_DEVSUP_ERROR, "cublasHgemmStridedBatched not available in your version of cuBLAS");
+
   if (LARGE_VAL(M) || LARGE_VAL(N) || LARGE_VAL(K) ||
       LARGE_VAL(lda) || LARGE_VAL(ldb) || LARGE_VAL(ldc) ||
-      LARGE_VAL(strideA) || LARGE_VAL(strideB) || LARGE_VAL(strideC) ||
       LARGE_VAL(M * N) || LARGE_VAL(M * K) || LARGE_VAL(K * N))
     return error_set(ctx->err, GA_XLARGE_ERROR, "Passed-in sizes would overflow the ints in the cublas interface");
 
@@ -558,28 +554,108 @@ static int hgemmStridedBatch(cb_order order, cb_transpose transA, cb_transpose t
     t = lda;
     lda = ldb;
     ldb = t;
+    t = offA;
+    offA = offB;
+    offB = t;
     transT = transA;
     transA = transB;
     transB = transT;
-    lt = strideA;
+    st = strideA;
     strideA = strideB;
-    strideB = lt;
+    strideB = st;
   }
 
-  ASSERT_BUF(A);
-  ASSERT_BUF(B);
-  ASSERT_BUF(C);
+  halpha = ga_float2half(alpha);
+  hbeta = ga_float2half(beta);
+
   GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(A, CUDA_WAIT_READ));
   GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(B, CUDA_WAIT_READ));
   GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(C, CUDA_WAIT_ALL));
-  raise(SIGINT);
   err = cublasHgemmStridedBatched(h->h,
 				  convT(transA), convT(transB),
 				  M, N, K, &halpha,
-				  (__half *)(A->ptr), (int) lda, strideA,
-				  (__half *)(B->ptr), (int) ldb, strideB,
+				  ((__half *)A->ptr) + offA, lda, strideA,
+				  ((__half *)B->ptr) + offB, ldb, strideB,
 				  &hbeta,
-				  (__half *)(C->ptr), (int) ldc, strideB,
+				  ((__half *)C->ptr) + offC, ldc, strideB,
+				  batchCount);
+  if (err != CUBLAS_STATUS_SUCCESS) {
+    cuda_exit(ctx);
+    return error_cublas(ctx->err, "cublasHgemmStridedBatched", err);
+  }
+
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(C, CUDA_WAIT_ALL));
+
+  cuda_exit(ctx);
+  return GA_NO_ERROR;
+}
+
+static int sgemm3D(cb_order order, cb_transpose transA, cb_transpose transB,
+                   size_t M, size_t N, size_t K, float alpha,
+                   gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+                   gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+                   float beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+                   size_t batchCount) {
+  cuda_context *ctx;
+  blas_handle *h;
+  size_t  t;
+  ssize_t st;
+  gpudata *T;
+  cb_transpose transT;
+  cublasStatus_t err;
+
+  ASSERT_BUF(A);
+  ASSERT_BUF(B);
+  ASSERT_BUF(C);
+
+  ctx = A->ctx;
+
+  if (cublasSgemmStridedBatched == NULL)
+    return error_set(ctx->error, GA_DEVSUP_ERROR, "cublasSgemmStridedBatched not available in your version of cuBLAS");
+
+  if (LARGE_VAL(M) || LARGE_VAL(N) || LARGE_VAL(K) ||
+      LARGE_VAL(lda) || LARGE_VAL(ldb) || LARGE_VAL(ldc) ||
+      LARGE_VAL(M * N) || LARGE_VAL(M * K) || LARGE_VAL(K * N))
+    return error_set(ctx->err, GA_XLARGE_ERROR, "Passed-in sizes would overflow the ints in the cublas interface");
+
+  h = (blas_handle *)ctx->blas_handle;
+  cuda_enter(ctx);
+
+  if (order == cb_c) {
+    /* swap A and B */
+    t = N;
+    N = M;
+    M = t;
+    T = A;
+    A = B;
+    B = T;
+    t = lda;
+    lda = ldb;
+    ldb = t;
+    t = offA;
+    offA = offB;
+    offB = t;
+    transT = transA;
+    transA = transB;
+    transB = transT;
+    st = strideA;
+    strideA = strideB;
+    strideB = st;
+  }
+
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(C, CUDA_WAIT_ALL));
+
+  err = cublasSgemmStridedBatched(h->h,
+				  convT(transA), convT(transB),
+				  M, N, K, &alpha,
+				  ((float *)A->ptr) + offA, (int)lda, strideA,
+				  ((float *)B->ptr) + offB, (int)ldb, strideB,
+				  &beta,
+				  ((float *)C->ptr) + offC, (int)ldc, strideB,
 				  batchCount);
   if (err != CUBLAS_STATUS_SUCCESS) {
     cuda_exit(ctx);
@@ -594,6 +670,84 @@ static int hgemmStridedBatch(cb_order order, cb_transpose transA, cb_transpose t
   return GA_NO_ERROR;
 }
 
+static int dgemm3D(cb_order order, cb_transpose transA, cb_transpose transB,
+                   size_t M, size_t N, size_t K, double alpha,
+                   gpudata *A, size_t offA, size_t lda, ssize_t strideA,
+                   gpudata *B, size_t offB, size_t ldb, ssize_t strideB,
+                   double beta, gpudata *C, size_t offC, size_t ldc, ssize_t strideC,
+                   size_t batchCount) {
+  cuda_context *ctx;
+  blas_handle *h;
+  size_t  t;
+  ssize_t st;
+  gpudata *T;
+  cb_transpose transT;
+  cublasStatus_t err;
+
+  ASSERT_BUF(A);
+  ASSERT_BUF(B);
+  ASSERT_BUF(C);
+
+  ctx = A->ctx;
+
+  if (cublasDgemmStridedBatched == NULL)
+    return error_set(ctx->error, GA_DEVSUP_ERROR, "cublasDgemmStridedBatched not available in your version of cuBLAS");
+
+  if (LARGE_VAL(M) || LARGE_VAL(N) || LARGE_VAL(K) ||
+      LARGE_VAL(lda) || LARGE_VAL(ldb) || LARGE_VAL(ldc) ||
+      LARGE_VAL(M * N) || LARGE_VAL(M * K) || LARGE_VAL(K * N))
+    return error_set(ctx->err, GA_XLARGE_ERROR, "Passed-in sizes would overflow the ints in the cublas interface");
+
+  h = (blas_handle *)ctx->blas_handle;
+  cuda_enter(ctx);
+
+  if (order == cb_c) {
+    /* swap A and B */
+    t = N;
+    N = M;
+    M = t;
+    T = A;
+    A = B;
+    B = T;
+    t = lda;
+    lda = ldb;
+    ldb = t;
+    t = offA;
+    offA = offB;
+    offB = t;
+    transT = transA;
+    transA = transB;
+    transB = transT;
+    st = strideA;
+    strideA = strideB;
+    strideB = st;
+  }
+
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(C, CUDA_WAIT_ALL));
+
+  err = cublasDgemmStridedBatched(h->h,
+				  convT(transA), convT(transB),
+				  M, N, K, &alpha,
+				  ((double *)A->ptr) + offA, (int)lda, strideA,
+				  ((double *)B->ptr) + offB, (int)ldb, strideB,
+				  &beta,
+				  ((double *)C->ptr) + offC, (int)ldc, strideB,
+				  batchCount);
+  if (err != CUBLAS_STATUS_SUCCESS) {
+    cuda_exit(ctx);
+    return error_cublas(ctx->err, "cublasDgemmStridedBatched", err);
+  }
+
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(C, CUDA_WAIT_ALL));
+
+  cuda_exit(ctx);
+  return GA_NO_ERROR;
+}
+
 static int sgemmBatch(cb_order order, cb_transpose transA, cb_transpose transB,
                       size_t M, size_t N, size_t K, float alpha,
                       gpudata **A, size_t *offA, size_t lda,
@@ -1662,5 +1816,7 @@ gpuarray_blas_ops cublas_ops = {
   NULL, /* hgerBatch */
   sgerBatch,
   dgerBatch,
-  hgemmStridedBatch,
+  hgemm3D,
+  sgemm3D,
+  dgemm3D
 };
diff --git a/src/gpuarray_blas_opencl_clblas.c b/src/gpuarray_blas_opencl_clblas.c
@@ -449,5 +449,7 @@ gpuarray_blas_ops clblas_ops = {
   NULL, /* hgerBatch */
   NULL, /* sgerBatch */
   NULL, /* dgerBatch */
-  NULL, /* hgemmStridedzBatch */
+  NULL, /* hgemm3D */
+  NULL, /* sgemm3D */
+  NULL, /* dgemm3D */
 };
diff --git a/src/gpuarray_blas_opencl_clblast.c b/src/gpuarray_blas_opencl_clblast.c
@@ -524,5 +524,7 @@ gpuarray_blas_ops clblast_ops = {
   NULL, /* hgerBatch */
   NULL, /* sgerBatch */
   NULL, /* dgerBatch */
-  NULL, /* hgemmStridedzBatch */
+  NULL, /* hgemm3D */
+  NULL, /* sgemm3D */
+  NULL, /* dgemm3D */
 };
diff --git a/src/gpuarray_buffer_blas.c b/src/gpuarray_buffer_blas.c
@@ -169,19 +169,6 @@ int gpublas_hgemmBatch(
              B, offB, ldb, beta, C, offC, ldc, batchCount));
 }
 
-//TODO: use half and not float here.
-int gpublas_hgemmStridedBatch(
-    cb_order order, cb_transpose transA, cb_transpose transB,
-    size_t M, size_t N, size_t K, float alpha,
-    gpudata *A, size_t lda, ssize_t strideA,
-    gpudata *B, size_t ldb, ssize_t strideB,
-    float beta, gpudata *C, size_t ldc, ssize_t strideC,
-    size_t batchCount, int flags) {
-  BLAS_OPF(A, hgemmStridedBatch,
-           (order, transA, transB, M, N, K, alpha, A, lda, strideA,
-            B, ldb, strideB, beta, C, ldc, strideC, batchCount));
-}
-
 int gpublas_sgemmBatch(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
@@ -271,3 +258,40 @@ int gpublas_dgerBatch(cb_order order, size_t M, size_t N, double alpha,
            (order, M, N, alpha, x, offX, incX, y, offY, incY,
             A, offA, lda, batchCount, flags));
 }
+
+
+int gpublas_hgemm3d(
+    cb_order order, cb_transpose transA, cb_transpose transB,
+    size_t M, size_t N, size_t K, float alpha,
+    gpudata *A, size_t lda, ssize_t strideA,
+    gpudata *B, size_t ldb, ssize_t strideB,
+    float beta, gpudata *C, size_t ldc, ssize_t strideC,
+    size_t batchCount, int flags) {
+  BLAS_OPBF(A, hgemm3d,
+            (order, transA, transB, M, N, K, alpha, A, lda, strideA,
+             B, ldb, strideB, beta, C, ldc, strideC, batchCount));
+}
+
+int gpublas_sgemm3d(
+    cb_order order, cb_transpose transA, cb_transpose transB,
+    size_t M, size_t N, size_t K, float alpha,
+    gpudata *A, size_t lda, ssize_t strideA,
+    gpudata *B, size_t ldb, ssize_t strideB,
+    float beta, gpudata *C, size_t ldc, ssize_t strideC,
+    size_t batchCount, int flags) {
+  BLAS_OPBF(A, sgemm3d,
+            (order, transA, transB, M, N, K, alpha, A, lda, strideA,
+             B, ldb, strideB, beta, C, ldc, strideC, batchCount));
+}
+
+int gpublas_dgemm3d(
+    cb_order order, cb_transpose transA, cb_transpose transB,
+    size_t M, size_t N, size_t K, float alpha,
+    gpudata *A, size_t lda, ssize_t strideA,
+    gpudata *B, size_t ldb, ssize_t strideB,
+    float beta, gpudata *C, size_t ldc, ssize_t strideC,
+    size_t batchCount, int flags) {
+  BLAS_OPBF(A, dgemm3d,
+            (order, transA, transB, M, N, K, alpha, A, lda, strideA,
+             B, ldb, strideB, beta, C, ldc, strideC, batchCount));
+}
diff --git a/src/private.h b/src/private.h