fix: fix weight tying, embedding/transform on cuda

Chamberlain0w0 · Chamberlain0w0 · commit b6de5bf5561c · 2025-04-21T14:18:25.000+08:00
diff --git a/example/gpt2/net.cc b/example/gpt2/net.cc
@@ -162,10 +162,10 @@ GPT2::GPT2(const GPT2Config &config) : config_(config) {
     // don't init this one, we will tie weights
     modules_[kLMHeadLayerName] = std::make_unique<GPT2Linear>(config.n_embd, config.vocab_size, false, true);
     // https://paperswithcode.com/method/weight-tying
-    mutable_module(kTransformerLayerName)
+    *mutable_module(kTransformerLayerName)
         ->mutable_module(kWTELayerName)
         ->mutable_parameter(GPT2Linear::kParamWeightName)
-        ->reset(module(kLMHeadLayerName).parameter(GPT2Linear::kParamWeightName).get());
+        = module(kLMHeadLayerName).parameter(GPT2Linear::kParamWeightName);
 
     // init all weights
     Apply([&](Module *module) {
diff --git a/infini_train/src/autograd/transform.cc b/infini_train/src/autograd/transform.cc
@@ -1,5 +1,10 @@
 #include "infini_train/include/autograd/transform.h"
 #include "infini_train/include/kernels/cpu/transform.h"
+
+#ifdef USE_CUDA
+#include "infini_train/include/kernels/cuda/transform.h"
+#endif
+
 #include <vector>
 
 namespace infini_train::autograd {
@@ -13,6 +18,12 @@ std::vector<std::shared_ptr<Tensor>> Tril::Forward(const std::vector<std::shared
         output = kernels::cpu::TrilForward(input, diagonal_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        output = kernels::cuda::TrilForward(input, diagonal_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(input->GetDevice().Type());
         break;
@@ -29,6 +40,12 @@ std::vector<std::shared_ptr<Tensor>> Tril::Backward(const std::vector<std::share
         grad_input = kernels::cpu::TrilBackward(grad_output, diagonal_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        grad_input = kernels::cuda::TrilBackward(grad_output, diagonal_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(grad_output->GetDevice().Type());
         break;
@@ -46,6 +63,12 @@ std::vector<std::shared_ptr<Tensor>> Transpose::Forward(const std::vector<std::s
         output = kernels::cpu::TransposeForward(input, dim0_, dim1_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        output = kernels::cuda::TransposeForward(input, dim0_, dim1_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(input->GetDevice().Type());
         break;
@@ -62,6 +85,12 @@ std::vector<std::shared_ptr<Tensor>> Transpose::Backward(const std::vector<std::
         grad_input = kernels::cpu::TransposeBackward(grad_output, dim0_, dim1_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        grad_input = kernels::cuda::TransposeBackward(grad_output, dim0_, dim1_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(grad_output->GetDevice().Type());
         break;
@@ -79,6 +108,12 @@ std::vector<std::shared_ptr<Tensor>> Mask::Forward(const std::vector<std::shared
         output = kernels::cpu::MaskForward(input, mask_, value_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        output = kernels::cuda::MaskForward(input, mask_, value_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(input->GetDevice().Type());
         break;
@@ -95,6 +130,12 @@ std::vector<std::shared_ptr<Tensor>> Mask::Backward(const std::vector<std::share
         grad_input = kernels::cpu::MaskBackward(grad_output, mask_);
         break;
     }
+#ifdef USE_CUDA
+    case DeviceType::kCUDA: {
+        grad_input = kernels::cuda::MaskBackward(grad_output, mask_);
+        break;
+    }
+#endif
     default:
         LOG(FATAL) << "Unsupported device type: " << static_cast<int>(grad_output->GetDevice().Type());
         break;
diff --git a/infini_train/src/kernels/cuda/embedding.cu b/infini_train/src/kernels/cuda/embedding.cu
@@ -36,11 +36,10 @@ __global__ void EmbeddingForwardKernel(const uint16_t *input, float *output, con
 }
 
 std::shared_ptr<Tensor> EmbeddingForward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tensor> &weight) {
-    CHECK_EQ(input->Dims().size(), 2);
     CHECK_EQ(weight->Dims().size(), 2);
 
-    const int batch_size = input->Dims()[0];
-    const int max_seqlen = input->Dims()[1];
+    const int batch_size = input->Dims().size() == 2 ? input->Dims()[0] : 1;
+    const int max_seqlen = input->Dims().size() == 2 ? input->Dims()[1] : input->Dims()[0];
     const int embed_dim = weight->Dims()[1];
 
     auto output = std::make_shared<Tensor>(std::vector<int64_t>{batch_size, max_seqlen, embed_dim}, DataType::kFLOAT32,
@@ -75,11 +74,10 @@ __global__ void WeightBackwardKernel(float *grad_weight, const float *grad_outpu
 
 std::shared_ptr<Tensor> EmbeddingBackward(const std::shared_ptr<Tensor> &input, const std::vector<int64_t> &weight_dims,
                                           const std::shared_ptr<Tensor> &grad_output) {
-    CHECK_EQ(input->Dims().size(), 2);
     CHECK_EQ(weight_dims.size(), 2);
 
-    const int batch_size = input->Dims()[0];
-    const int max_seqlen = input->Dims()[1];
+    const int batch_size = input->Dims().size() == 2 ? input->Dims()[0] : 1;
+    const int max_seqlen = input->Dims().size() == 2 ? input->Dims()[1] : input->Dims()[0];
     const int embed_dim = weight_dims[1];
 
     auto grad_weight = std::make_shared<Tensor>(weight_dims, DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
diff --git a/infini_train/src/kernels/cuda/linear.cu b/infini_train/src/kernels/cuda/linear.cu
@@ -51,11 +51,11 @@ std::shared_ptr<Tensor> MatmulForward(const std::shared_ptr<Tensor> &input, cons
 
     std::vector<int64_t> output_dims = input_dims;
     output_dims[output_dims.size() - 1] = n;
-    auto output = std::make_shared<Tensor>(output_dims, DataType::kFLOAT32, input->GetDevice());
+    auto output = std::make_shared<Tensor>(output_dims, DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
 
     const float alpha = 1.0f, beta = 0.0f;
     cublasHandle_t handle;
-    cublasCreate(&handle);
+    CUBLAS_CHECK(cublasCreate(&handle));
 
     // cuBLAS is colmun-major
     // output = input * other --> output.T = other.T * input.T
@@ -69,11 +69,16 @@ std::shared_ptr<Tensor> MatmulForward(const std::shared_ptr<Tensor> &input, cons
     int64_t stride_a = n * k;
     int64_t stride_b = k * m;
     int64_t stride_c = m * n;
-    cublasGemmStridedBatchedEx(handle, CUBLAS_OP_N, CUBLAS_OP_N, n, m, k, &alpha, other->DataPtr(), CUDA_R_32F, lda,
-                               stride_a, input->DataPtr(), CUDA_R_32F, ldb, stride_b, &beta, output->DataPtr(),
-                               CUDA_R_32F, ldc, stride_c, bs, CUDA_R_32F, CUBLAS_GEMM_DEFAULT);
-
-    cublasDestroy(handle);
+    // TODO(zbl): check GEMM algo
+    // CUBLAS_GEMM_DEFAULT might requires TensorCore
+    // Use CUBLAS_GEMM_ALGO0 to disable TensorCore algos
+
+    CUBLAS_CHECK(cublasGemmStridedBatchedEx(handle, CUBLAS_OP_N, CUBLAS_OP_N, n, m, k, &alpha, other->DataPtr(),
+                                            CUDA_R_32F, lda, stride_a, input->DataPtr(), CUDA_R_32F, ldb, stride_b,
+                                            &beta, output->DataPtr(), CUDA_R_32F, ldc, stride_c, bs, CUDA_R_32F,
+                                            CUBLAS_GEMM_DEFAULT));
+    CUDA_CHECK(cudaDeviceSynchronize());
+    CUBLAS_CHECK(cublasDestroy(handle));
     return output;
 }
 
@@ -112,7 +117,7 @@ MatmulBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
 
     float alpha = 1.0f, beta = 0.0f;
     cublasHandle_t handle;
-    cublasCreate(&handle);
+    CUBLAS_CHECK(cublasCreate(&handle));
 
     {
         // cuBLAS is colmun-major
@@ -125,10 +130,10 @@ MatmulBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
         const int64_t stride_a = k * n;
         const int64_t stride_b = n * m;
         const int64_t stride_c = m * k;
-        cublasGemmStridedBatchedEx(handle, CUBLAS_OP_T, CUBLAS_OP_N, k, m, n, &alpha, other->DataPtr(), CUDA_R_32F, lda,
-                                   stride_a, grad_output->DataPtr(), CUDA_R_32F, ldb, stride_b, &beta,
-                                   grad_input->DataPtr(), CUDA_R_32F, ldc, stride_c, bs, CUDA_R_32F,
-                                   CUBLAS_GEMM_DEFAULT);
+        CUBLAS_CHECK(cublasGemmStridedBatchedEx(handle, CUBLAS_OP_T, CUBLAS_OP_N, k, m, n, &alpha, other->DataPtr(),
+                                                CUDA_R_32F, lda, stride_a, grad_output->DataPtr(), CUDA_R_32F, ldb,
+                                                stride_b, &beta, grad_input->DataPtr(), CUDA_R_32F, ldc, stride_c, bs,
+                                                CUDA_R_32F, CUBLAS_GEMM_DEFAULT));
     }
 
     {
@@ -142,13 +147,13 @@ MatmulBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
         const int64_t stride_a = n * m;
         const int64_t stride_b = m * k;
         const int64_t stride_c = n * k;
-        cublasGemmStridedBatchedEx(handle, CUBLAS_OP_N, CUBLAS_OP_T, n, k, m, &alpha, grad_output->DataPtr(),
-                                   CUDA_R_32F, lda, stride_a, input->DataPtr(), CUDA_R_32F, ldb, stride_b, &beta,
-                                   grad_other->DataPtr(), CUDA_R_32F, ldc, stride_c, bs, CUDA_R_32F,
-                                   CUBLAS_GEMM_DEFAULT);
+        CUBLAS_CHECK(cublasGemmStridedBatchedEx(handle, CUBLAS_OP_N, CUBLAS_OP_T, n, k, m, &alpha,
+                                                grad_output->DataPtr(), CUDA_R_32F, lda, stride_a, input->DataPtr(),
+                                                CUDA_R_32F, ldb, stride_b, &beta, grad_other->DataPtr(), CUDA_R_32F,
+                                                ldc, stride_c, bs, CUDA_R_32F, CUBLAS_GEMM_DEFAULT));
     }
 
-    cublasDestroy(handle);
+    CUBLAS_CHECK(cublasDestroy(handle));
     return {grad_input, grad_other};
 }
 
@@ -163,34 +168,27 @@ std::shared_ptr<Tensor> LinearForward(const std::shared_ptr<Tensor> &input, cons
         output[*, out_features] = input[*, in_features] * weight[out_features, in_features]^T + bias[out_features]
     */
 
-    CHECK_EQ(input->Dims().size(), 2);
-    const int64_t bs = input->Dims()[0];
-    const int64_t in_features = input->Dims()[1];
-    CHECK_EQ(weight->Dims().size(), 2);
+    const auto &input_dims = input->Dims();
+    CHECK_GE(input_dims.size(), 2);
+    const int64_t bs = std::accumulate(input_dims.rbegin() + 1, input_dims.rend(), 1, std::multiplies<int64_t>{});
+    const int64_t in_features = *input_dims.rbegin();
+
+    const auto &weight_dims = weight->Dims();
+    CHECK_EQ(weight_dims.size(), 2);
+    CHECK_EQ(in_features, weight_dims[transpose ? 1 : 0]);
 
     // As for cublas:
     // C = alpha * op(B) * op(A) + beta * C
     // Dimensions:
     //   input:  (bs, in_features)
     //   weight: (in_features, out_features) or (out_features, in_features) if transposed
     //   output: (bs, out_features)
-    int64_t out_features = 0;
-    cublasOperation_t op_weight = CUBLAS_OP_N;
-
-    if (transpose) {
-        // weight: (out_features, in_features)
-        CHECK_EQ(in_features, weight->Dims()[1]);
-        out_features = weight->Dims()[0];
-        op_weight = CUBLAS_OP_T;
-    } else {
-        // weight: (in_features, out_features)
-        CHECK_EQ(in_features, weight->Dims()[0]);
-        out_features = weight->Dims()[1];
-        op_weight = CUBLAS_OP_N;
-    }
+    const int64_t out_features = weight_dims[transpose ? 0 : 1];
+    cublasOperation_t op_weight = transpose ? CUBLAS_OP_T : CUBLAS_OP_N;
 
-    auto output = std::make_shared<Tensor>(std::vector<int64_t>{bs, out_features}, DataType::kFLOAT32,
-                                           Device(DeviceType::kCUDA, 0));
+    auto output_dims = input_dims;
+    *output_dims.rbegin() = out_features;
+    auto output = std::make_shared<Tensor>(output_dims, DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
 
     if (bias) {
         CHECK_EQ(bias->Dims().size(), 1);
@@ -206,17 +204,18 @@ std::shared_ptr<Tensor> LinearForward(const std::shared_ptr<Tensor> &input, cons
     const float alpha = 1.0f;
     const float beta = 1.0f;
     cublasHandle_t handle;
-    cublasCreate(&handle);
+    CUBLAS_CHECK(cublasCreate(&handle));
 
     // C = alpha * op(B) * op(A) + beta * C
     // output = alpha * (input * weight) + beta * output
     // TODO(zbl): use cublasSgemv if possible
-    cublasSgemm(handle, op_weight, CUBLAS_OP_N, out_features, bs, in_features, &alpha,
-                static_cast<const float *>(weight->DataPtr()), (op_weight == CUBLAS_OP_N) ? out_features : in_features,
-                static_cast<const float *>(input->DataPtr()), in_features, &beta,
-                static_cast<float *>(output->DataPtr()), out_features);
+    CUBLAS_CHECK(cublasSgemm(handle, op_weight, CUBLAS_OP_N, out_features, bs, in_features, &alpha,
+                             static_cast<const float *>(weight->DataPtr()),
+                             (op_weight == CUBLAS_OP_N) ? out_features : in_features,
+                             static_cast<const float *>(input->DataPtr()), in_features, &beta,
+                             static_cast<float *>(output->DataPtr()), out_features));
 
-    cublasDestroy(handle);
+    CUBLAS_CHECK(cublasDestroy(handle));
 
     return {output};
 }
@@ -231,13 +230,18 @@ __global__ void set_ones(float *data, int num_elements) {
 std::tuple<std::shared_ptr<Tensor>, std::shared_ptr<Tensor>, std::shared_ptr<Tensor>>
 LinearBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tensor> &weight, bool transpose,
                int64_t out_features, const std::shared_ptr<Tensor> &grad_output, const bool bias) {
-    CHECK_EQ(input->Dims().size(), 2);
-    const int bs = input->Dims()[0];
-    const int in_features = input->Dims()[1];
-    CHECK_EQ(weight->Dims().size(), 2);
+    const auto &input_dims = input->Dims();
+    CHECK_GE(input_dims.size(), 2);
+    const int64_t bs = std::accumulate(input_dims.rbegin() + 1, input_dims.rend(), 1, std::multiplies<int64_t>{});
+    const int64_t in_features = *input_dims.rbegin();
+
+    const auto &weight_dims = weight->Dims();
+    CHECK_EQ(weight_dims.size(), 2);
+    CHECK_EQ(in_features, weight_dims[transpose ? 1 : 0]);
+    CHECK_EQ(out_features, weight_dims[transpose ? 0 : 1]);
 
-    auto grad_input = std::make_shared<Tensor>(input->Dims(), DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
-    auto grad_weight = std::make_shared<Tensor>(weight->Dims(), DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
+    auto grad_input = std::make_shared<Tensor>(input_dims, DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
+    auto grad_weight = std::make_shared<Tensor>(weight_dims, DataType::kFLOAT32, Device(DeviceType::kCUDA, 0));
     grad_weight->Fill<float>(0.0f);
     std::shared_ptr<Tensor> grad_bias = nullptr;
     if (bias) {
@@ -249,7 +253,7 @@ LinearBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
     float alpha = 1.0f;
     float beta = 0.0f;
     cublasHandle_t handle;
-    cublasCreate(&handle);
+    CUBLAS_CHECK(cublasCreate(&handle));
 
     // TODO(zbl): use cublasSgemv if possible
     if (transpose) {
@@ -299,7 +303,7 @@ LinearBackward(const std::shared_ptr<Tensor> &input, const std::shared_ptr<Tenso
             out_features, static_cast<float *>(ones_ptr), 1, &beta, static_cast<float *>(grad_bias->DataPtr()), 1));
     }
 
-    cublasDestroy(handle);
+    CUBLAS_CHECK(cublasDestroy(handle));
 
     return {grad_input, grad_weight, grad_bias};
 }
diff --git a/infini_train/src/kernels/cuda/no_op.cu b/infini_train/src/kernels/cuda/no_op.cu
@@ -17,8 +17,8 @@ std::shared_ptr<Tensor> NoOpForward(const std::shared_ptr<Tensor> &input, const
 }
 
 std::shared_ptr<Tensor> NoOpBackward(const std::vector<int64_t> &dims, const std::shared_ptr<Tensor> &grad_output) {
-    CHECK_EQ(dims.size(), grad_output->Dims().size());
-    for (int idx = 0; idx < dims.size(); ++idx) { CHECK_EQ(dims[idx], grad_output->Dims()[idx]); }
+    auto num_elements = std::accumulate(dims.begin(), dims.end(), 1, std::multiplies<int64_t>());
+    CHECK_EQ(num_elements, grad_output->NumElements());
 
     auto grad_input = std::make_shared<Tensor>(*grad_output, 0, dims);
     return grad_input;
diff --git a/infini_train/src/kernels/cuda/softmax.cu b/infini_train/src/kernels/cuda/softmax.cu
@@ -11,6 +11,14 @@
 
 namespace infini_train::kernels::cuda {
 
+#define CUDA_CHECK(call)                                                                                               \
+    do {                                                                                                               \
+        cudaError_t status = call;                                                                                     \
+        if (status != cudaSuccess) {                                                                                   \
+            LOG(FATAL) << "CUDA Error: " << cudaGetErrorString(status) << " at " << __FILE__ << ":" << __LINE__;       \
+        }                                                                                                              \
+    } while (0)
+
 template <size_t BLOCK_SIZE, typename T>
 __global__ void SoftmaxForwardKernel(T *output, const T *input, int64_t outer_size, int64_t axis_size,
                                      int64_t inner_size) {
@@ -108,7 +116,7 @@ std::shared_ptr<Tensor> SoftmaxForward(const std::shared_ptr<Tensor> &input, int
     default:
         LOG(FATAL) << "CUDA softmax forward: 'Unsupported data type' at " << __FILE__ << ":" << __LINE__;
     }
-
+    CUDA_CHECK(cudaDeviceSynchronize());
     return output;
 }
 

Original file line number	Diff line number	Diff line change
`@@ -17,8 +17,8 @@ std::shared_ptr<Tensor> NoOpForward(const std::shared_ptr<Tensor> &input, const`
`17`	`17`	`}`
`18`	`18`
`19`	`19`	`std::shared_ptr<Tensor> NoOpBackward(const std::vector<int64_t> &dims, const std::shared_ptr<Tensor> &grad_output) {`
`20`		`- CHECK_EQ(dims.size(), grad_output->Dims().size());`
`21`		`- for (int idx = 0; idx < dims.size(); ++idx) { CHECK_EQ(dims[idx], grad_output->Dims()[idx]); }`
	`20`	`+ auto num_elements = std::accumulate(dims.begin(), dims.end(), 1, std::multiplies<int64_t>());`
	`21`	`+ CHECK_EQ(num_elements, grad_output->NumElements());`
`22`	`22`
`23`	`23`	`auto grad_input = std::make_shared<Tensor>(*grad_output, 0, dims);`
`24`	`24`	`return grad_input;`