First version that execute, but give wrong result!

nouiz · abergeron · commit 9c2e317646b8 · 2017-06-07T15:40:48.000-04:00
diff --git a/src/gpuarray/blas.h b/src/gpuarray/blas.h
@@ -34,6 +34,7 @@ GPUARRAY_PUBLIC int GpuArray_rger(double alpha, GpuArray *X, GpuArray *Y,
 GPUARRAY_PUBLIC int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB,
                                            double alpha, GpuArray *A, GpuArray *B,
                                            double beta, GpuArray *C, int nocopy);
+#define GpuArray_hgemmBatch_3d GpuArray_rgemmBatch_3d
 #define GpuArray_sgemmBatch_3d GpuArray_rgemmBatch_3d
 #define GpuArray_dgemmBatch_3d GpuArray_rgemmBatch_3d
 
diff --git a/src/gpuarray/buffer_blas.h b/src/gpuarray/buffer_blas.h
@@ -115,6 +115,15 @@ GPUARRAY_PUBLIC int gpublas_hgemmBatch(
   float beta, gpudata **C, size_t *offC, size_t ldc,
   size_t batchCount, int flags);
 
+//TODO: float should be half
+GPUARRAY_PUBLIC int gpublas_hgemmStridedBatch(
+  cb_order order, cb_transpose transA, cb_transpose transB,
+  size_t M, size_t N, size_t K, float alpha,
+  gpudata *A, size_t lda, ssize_t strideA,
+  gpudata *B, size_t ldb, ssize_t strideB,
+  float beta, gpudata *C, size_t ldc, ssize_t strideC,
+  size_t batchCount, int flags);
+
 GPUARRAY_PUBLIC int gpublas_sgemmBatch(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
diff --git a/src/gpuarray_array_blas.c b/src/gpuarray_array_blas.c
@@ -486,7 +486,7 @@ int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB, double alph
   size_t *A_offsets = NULL, *B_offsets = NULL, *C_offsets = NULL;
   size_t i;
 
-  if (A->typecode != GA_FLOAT && A->typecode != GA_DOUBLE)
+  if (A->typecode != GA_FLOAT && A->typecode != GA_DOUBLE && A->typecode != GA_HALF)
     return error_set(ctx->err, GA_INVALID_ERROR, "Unsupported dtype");
 
   if (A->nd != 3 || B->nd != 3 || C->nd != 3)
@@ -625,6 +625,21 @@ int GpuArray_rgemmBatch_3d(cb_transpose transA, cb_transpose transB, double alph
   if (err != GA_NO_ERROR)
     goto cleanup;
 
+  if(C->typecode == GA_HALF){
+    //TODO: handle offset
+    assert (Ap->offset == 0);
+    assert (Bp->offset == 0);
+    assert (Cp->offset == 0);
+    //TODO: float should be half
+    err = gpublas_hgemmStridedBatch(o, transA, transB, m, n, k, alpha,
+				    Ap->data, lda, Ap->strides[0]/elsize,
+				    Bp->data, ldb, Bp->strides[0]/elsize,
+				    beta,
+				    Cp->data, ldc, Cp->strides[0]/elsize,
+				    batchCount, 0);
+    goto cleanup;
+  }
+
   A_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
   B_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
   C_datas = (gpudata**)malloc(batchCount * sizeof(gpudata*));
diff --git a/src/gpuarray_blas_cuda_cublas.c b/src/gpuarray_blas_cuda_cublas.c
@@ -510,6 +510,89 @@ static int hgemm(cb_order order, cb_transpose transA, cb_transpose transB,
   cuda_exit(ctx);
   return GA_NO_ERROR;
 }
+//TODO: change float to half
+static int hgemmStridedBatch(cb_order order, cb_transpose transA, cb_transpose transB,
+			     size_t M, size_t N, size_t K, float alpha,
+			     gpudata *A, size_t lda, ssize_t strideA,
+			     gpudata *B, size_t ldb, ssize_t strideB,
+			     float beta, gpudata *C, size_t ldc, ssize_t strideC,
+			     size_t batchCount) {
+  cuda_context *ctx;
+  blas_handle *h;
+  size_t  t;
+  ssize_t lt;
+  gpudata *T;
+  cb_transpose transT;
+  cublasStatus_t err;
+  __half halpha, hbeta;
+
+  //ignore overflow, underflow, denormalized and inf values. Mayve also nan.
+  uint32_t x = (uint32_t)alpha;
+  alpha = ((x>>16)&0x8000)|((((x&0x7f800000)-0x38000000)>>13)&0x7c00)|((x>>13)&0x03ff);
+  x = (uint32_t)beta;
+  beta = ((x>>16)&0x8000)|((((x&0x7f800000)-0x38000000)>>13)&0x7c00)|((x>>13)&0x03ff);
+  
+  ASSERT_BUF(A);
+  if (cublasHgemmStridedBatched == NULL)
+    return GA_DEVSUP_ERROR;
+
+  ctx = A->ctx;
+  // TODO: stride* are long long int in cuda, LARGE_VAL check for int.
+  if (LARGE_VAL(M) || LARGE_VAL(N) || LARGE_VAL(K) ||
+      LARGE_VAL(lda) || LARGE_VAL(ldb) || LARGE_VAL(ldc) ||
+      LARGE_VAL(strideA) || LARGE_VAL(strideB) || LARGE_VAL(strideC) ||
+      LARGE_VAL(M * N) || LARGE_VAL(M * K) || LARGE_VAL(K * N))
+    return error_set(ctx->err, GA_XLARGE_ERROR, "Passed-in sizes would overflow the ints in the cublas interface");
+
+  h = (blas_handle *)ctx->blas_handle;
+  cuda_enter(ctx);
+
+  if (order == cb_c) {
+    /* swap A and B */
+    t = N;
+    N = M;
+    M = t;
+    T = A;
+    A = B;
+    B = T;
+    t = lda;
+    lda = ldb;
+    ldb = t;
+    transT = transA;
+    transA = transB;
+    transB = transT;
+    lt = strideA;
+    strideA = strideB;
+    strideB = lt;
+  }
+
+  ASSERT_BUF(A);
+  ASSERT_BUF(B);
+  ASSERT_BUF(C);
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_wait(C, CUDA_WAIT_ALL));
+  raise(SIGINT);
+  err = cublasHgemmStridedBatched(h->h,
+				  convT(transA), convT(transB),
+				  M, N, K, &halpha,
+				  (__half *)(A->ptr), (int) lda, strideA,
+				  (__half *)(B->ptr), (int) ldb, strideB,
+				  &hbeta,
+				  (__half *)(C->ptr), (int) ldc, strideB,
+				  batchCount);
+  if (err != CUBLAS_STATUS_SUCCESS) {
+    cuda_exit(ctx);
+    return error_cublas(ctx->err, "cublasHgemmStridedBatched", err);
+  }
+
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(A, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(B, CUDA_WAIT_READ));
+  GA_CUDA_EXIT_ON_ERROR(ctx, cuda_record(C, CUDA_WAIT_ALL));
+
+  cuda_exit(ctx);
+  return GA_NO_ERROR;
+}
 
 static int sgemmBatch(cb_order order, cb_transpose transA, cb_transpose transB,
                       size_t M, size_t N, size_t K, float alpha,
@@ -1578,5 +1661,6 @@ gpuarray_blas_ops cublas_ops = {
   dgemvBatch,
   NULL, /* hgerBatch */
   sgerBatch,
-  dgerBatch
+  dgerBatch,
+  hgemmStridedBatch,
 };
diff --git a/src/gpuarray_blas_opencl_clblas.c b/src/gpuarray_blas_opencl_clblas.c
@@ -449,4 +449,5 @@ gpuarray_blas_ops clblas_ops = {
   NULL, /* hgerBatch */
   NULL, /* sgerBatch */
   NULL, /* dgerBatch */
+  NULL, /* hgemmStridedzBatch */
 };
diff --git a/src/gpuarray_blas_opencl_clblast.c b/src/gpuarray_blas_opencl_clblast.c
@@ -524,4 +524,5 @@ gpuarray_blas_ops clblast_ops = {
   NULL, /* hgerBatch */
   NULL, /* sgerBatch */
   NULL, /* dgerBatch */
+  NULL, /* hgemmStridedzBatch */
 };
diff --git a/src/gpuarray_buffer_blas.c b/src/gpuarray_buffer_blas.c
@@ -17,13 +17,21 @@ const char *gpublas_error(gpucontext *ctx) {
   return ctx->err->msg;
 }
 
-#define BLAS_OP(buf,name, args)                                         \
+#define BLAS_OP(buf, name, args)                                        \
   gpucontext *ctx = gpudata_context(buf);                               \
   if (ctx->blas_ops->name)                                              \
     return ctx->blas_ops->name args;                                    \
   else                                                                  \
     return error_fmt(ctx->err, GA_DEVSUP_ERROR, "Blas operation not supported by device or missing library: %s", #name)
 
+#define BLAS_OPF(buf, name, args)                                       \
+  gpucontext *ctx = gpudata_context(buf);                               \
+  if (flags != 0) return error_set(ctx->err, GA_INVALID_ERROR, "flags is not 0"); \
+  if (ctx->blas_ops->name)						\
+    return ctx->blas_ops->name args;                                    \
+  else                                                                  \
+    return error_fmt(ctx->err, GA_DEVSUP_ERROR, "Blas operation not supported by device or missing library: %s", #name)
+
 
 int gpublas_hdot(
         size_t N,
@@ -161,6 +169,19 @@ int gpublas_hgemmBatch(
              B, offB, ldb, beta, C, offC, ldc, batchCount));
 }
 
+//TODO: use half and not float here.
+int gpublas_hgemmStridedBatch(
+    cb_order order, cb_transpose transA, cb_transpose transB,
+    size_t M, size_t N, size_t K, float alpha,
+    gpudata *A, size_t lda, ssize_t strideA,
+    gpudata *B, size_t ldb, ssize_t strideB,
+    float beta, gpudata *C, size_t ldc, ssize_t strideC,
+    size_t batchCount, int flags) {
+  BLAS_OPF(A, hgemmStridedBatch,
+           (order, transA, transB, M, N, K, alpha, A, lda, strideA,
+            B, ldb, strideB, beta, C, ldc, strideC, batchCount));
+}
+
 int gpublas_sgemmBatch(
   cb_order order, cb_transpose transA, cb_transpose transB,
   size_t M, size_t N, size_t K, float alpha,
diff --git a/src/loaders/libcublas.fn b/src/loaders/libcublas.fn
@@ -23,3 +23,5 @@ DEF_PROC_OPT(cublasSgemmEx, (cublasHandle_t handle, cublasOperation_t transa, cu
 
 DEF_PROC(cublasSgemmBatched, (cublasHandle_t handle, cublasOperation_t transa, cublasOperation_t transb, int m, int n, int k, const float *alpha, const float *Aarray[], int lda, const float *Barray[], int ldb, const float *beta, float *Carray[], int ldc, int batchCount));
 DEF_PROC(cublasDgemmBatched, (cublasHandle_t handle, cublasOperation_t transa, cublasOperation_t transb, int m, int n, int k, const double *alpha, const double *Aarray[], int lda, const double *Barray[], int ldb, const double *beta, double *Carray[], int ldc, int batchCount));
+
+DEF_PROC(cublasHgemmStridedBatched, (cublasHandle_t handle, cublasOperation_t transa, cublasOperation_t transb, int m, int n, int k, const __half *alpha, const __half *A, int lda, long long int strideA, const __half *B, int ldb, long long int strideB, const __half *beta, __half *C, int ldc, long long int strideC, int batchCount));
diff --git a/src/loaders/libcublas.h b/src/loaders/libcublas.h
@@ -2,6 +2,11 @@
 #define LOADER_LIBCUBLAS_H
 
 #include "util/error.h"
+//TODO: how to have it work with align?
+typedef struct {//__align__(2) {
+  unsigned short x;
+} __half;
+
 
 /** @cond NEVER */
 
diff --git a/src/private.h b/src/private.h
@@ -214,6 +214,13 @@ struct _gpuarray_blas_ops {
                    gpudata **y, size_t *offY, size_t incY,
                    gpudata **A, size_t *offA, size_t lda,
                    size_t batchCount, int flags);
+  //TODO: float should be half
+  int (*hgemmStridedBatch)(cb_order order, cb_transpose transA, cb_transpose transB,
+			   size_t M, size_t N, size_t K, float alpha,
+			   gpudata *A, size_t lda, ssize_t strideA,
+			   gpudata *B, size_t ldb, ssize_t strideB,
+			   float beta, gpudata *C, size_t ldc, ssize_t strideC,
+			   size_t batchCount);
 };
 
 struct _gpuarray_comm_ops {