InfiniTensor
diff --git a/‎src/cambricon/device_.h‎
Lines changed: 23 additions & 0 deletions b/‎src/cambricon/device_.h‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎src/cambricon/rms_norm/kernel.mlu‎
Lines changed: 57 additions & 57 deletions b/‎src/cambricon/rms_norm/kernel.mlu‎
Lines changed: 57 additions & 57 deletions
diff --git a/‎src/cambricon/rms_norm/rms_norm.h‎
Lines changed: 10 additions & 8 deletions b/‎src/cambricon/rms_norm/rms_norm.h‎
Lines changed: 10 additions & 8 deletions
diff --git a/‎src/common/constexpr_map.h‎
Lines changed: 1 addition & 1 deletion b/‎src/common/constexpr_map.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/cpu/add/add.h‎
Lines changed: 4 additions & 3 deletions b/‎src/cpu/add/add.h‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎src/cpu/caster_.h‎
Lines changed: 5 additions & 2 deletions b/‎src/cpu/caster_.h‎
Lines changed: 5 additions & 2 deletions
diff --git a/‎src/cpu/causal_softmax/causal_softmax.h‎
Lines changed: 1 addition & 1 deletion b/‎src/cpu/causal_softmax/causal_softmax.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/cpu/device_.h‎
Lines changed: 21 additions & 0 deletions b/‎src/cpu/device_.h‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎src/cpu/gemm/gemm.h‎
Lines changed: 1 addition & 1 deletion b/‎src/cpu/gemm/gemm.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/cpu/rms_norm/rms_norm.h‎
Lines changed: 1 addition & 1 deletion b/‎src/cpu/rms_norm/rms_norm.h‎
Lines changed: 1 addition & 1 deletion
@@ -0,0 +1,23 @@
+#ifndef INFINI_OPS_CAMBRICON_DEVICE__H_
+#define INFINI_OPS_CAMBRICON_DEVICE__H_
+
+#include "bang_bf16.h"
+#include "bang_fp16.h"
+#include "data_type.h"
+#include "device.h"
+
+namespace infini::ops {
+
+template <>
+struct TypeMap<Device::Type::kCambricon, DataType::kFloat16> {
+  using type = __half;
+};
+
+template <>
+struct TypeMap<Device::Type::kCambricon, DataType::kBFloat16> {
+  using type = __bang_bfloat16;
+};
+
+}  // namespace infini::ops
+
+#endif
@@ -5,9 +5,9 @@ __nram__ char nram_buffer[NRAM_MAX_SIZE];
 namespace infini::ops {
 
 template <typename T, typename TW>
-__mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
-                            size_t *shape, ptrdiff_t *output_strides,
-                            ptrdiff_t *input_strides, float epsilon,
+__mlu_global__ void RmsNorm(const T* input, const TW* weight, T* output,
+                            size_t* shape, ptrdiff_t* output_strides,
+                            ptrdiff_t* input_strides, float epsilon,
                             int num_dims, int norm_dim_size) {
   // Calculate problem dimensions.
   int batch_volume = 1;
@@ -40,11 +40,11 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
   constexpr int reduce_buffer_size = 128 / sizeof(float);
 
   // NRAM buffer allocation with dynamic sizing.
-  float *reduction_buffer = (float *)nram_buffer;
-  T *input_cache = (T *)(reduction_buffer + reduce_buffer_size);
-  TW *weight_cache = (TW *)(input_cache + max_batch_size);
-  float *float_buffer = (float *)(weight_cache + max_batch_size);
-  float *weight_float_buffer = (float *)(float_buffer + max_batch_size);
+  float* reduction_buffer = (float*)nram_buffer;
+  T* input_cache = (T*)(reduction_buffer + reduce_buffer_size);
+  TW* weight_cache = (TW*)(input_cache + max_batch_size);
+  float* float_buffer = (float*)(weight_cache + max_batch_size);
+  float* weight_float_buffer = (float*)(float_buffer + max_batch_size);
 
   // Process vectors assigned to current core.
   for (int task_idx = 0; task_idx < actual_tasks; ++task_idx) {
@@ -69,7 +69,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
       __memcpy(input_cache, input + input_offset, vector_size * sizeof(T),
                GDRAM2NRAM);
       if constexpr (std::is_same<T, __half>::value) {
-        __bang_half2float(float_buffer, reinterpret_cast<half *>(input_cache),
+        __bang_half2float(float_buffer, reinterpret_cast<half*>(input_cache),
                           vector_size);
       } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
         __bang_bfloat162float(float_buffer, input_cache, vector_size);
@@ -99,7 +99,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
                  current_batch * sizeof(T), GDRAM2NRAM);
 
         if constexpr (std::is_same<T, __half>::value) {
-          __bang_half2float(float_buffer, reinterpret_cast<half *>(input_cache),
+          __bang_half2float(float_buffer, reinterpret_cast<half*>(input_cache),
                             current_batch);
         } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
           __bang_bfloat162float(float_buffer, input_cache, current_batch);
@@ -137,7 +137,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
       __memcpy(weight_cache, weight, vector_size * sizeof(TW), GDRAM2NRAM);
 
       if constexpr (std::is_same<T, __half>::value) {
-        __bang_half2float(float_buffer, reinterpret_cast<half *>(input_cache),
+        __bang_half2float(float_buffer, reinterpret_cast<half*>(input_cache),
                           vector_size);
       } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
         __bang_bfloat162float(float_buffer, input_cache, vector_size);
@@ -148,7 +148,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
 
       if constexpr (std::is_same<TW, __half>::value) {
         __bang_half2float(weight_float_buffer,
-                          reinterpret_cast<half *>(weight_cache), vector_size);
+                          reinterpret_cast<half*>(weight_cache), vector_size);
       } else if constexpr (std::is_same<TW, __bang_bfloat16>::value) {
         __bang_bfloat162float(weight_float_buffer, weight_cache, vector_size);
       } else {
@@ -161,7 +161,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
       __bang_mul_scalar(float_buffer, float_buffer, inv_rms, vector_size);
 
       if constexpr (std::is_same<T, __half>::value) {
-        __bang_float2half(reinterpret_cast<half *>(input_cache), float_buffer,
+        __bang_float2half(reinterpret_cast<half*>(input_cache), float_buffer,
                           vector_size);
       } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
         __bang_float2bfloat16(input_cache, float_buffer, vector_size);
@@ -188,7 +188,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
                  current_batch * sizeof(TW), GDRAM2NRAM);
 
         if constexpr (std::is_same<T, __half>::value) {
-          __bang_half2float(float_buffer, reinterpret_cast<half *>(input_cache),
+          __bang_half2float(float_buffer, reinterpret_cast<half*>(input_cache),
                             current_batch);
         } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
           __bang_bfloat162float(float_buffer, input_cache, current_batch);
@@ -199,7 +199,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
 
         if constexpr (std::is_same<TW, __half>::value) {
           __bang_half2float(weight_float_buffer,
-                            reinterpret_cast<half *>(weight_cache),
+                            reinterpret_cast<half*>(weight_cache),
                             current_batch);
         } else if constexpr (std::is_same<TW, __bang_bfloat16>::value) {
           __bang_bfloat162float(weight_float_buffer, weight_cache,
@@ -214,7 +214,7 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
         __bang_mul_scalar(float_buffer, float_buffer, inv_rms, current_batch);
 
         if constexpr (std::is_same<T, __half>::value) {
-          __bang_float2half(reinterpret_cast<half *>(input_cache), float_buffer,
+          __bang_float2half(reinterpret_cast<half*>(input_cache), float_buffer,
                             current_batch);
         } else if constexpr (std::is_same<T, __bang_bfloat16>::value) {
           __bang_float2bfloat16(input_cache, float_buffer, current_batch);
@@ -234,10 +234,10 @@ __mlu_global__ void RmsNorm(const T *input, const TW *weight, T *output,
 }
 
 template <typename T, typename TW>
-void RmsNormUnion(void *workspace, int core_per_cluster, int cluster_count,
-                  cnrtQueue_t queue, void *y, const void *x, const void *w,
-                  const size_t *shape, const ptrdiff_t *y_strides,
-                  const ptrdiff_t *x_strides, float eps, int ndim) {
+void RmsNormUnion(void* workspace, int core_per_cluster, int cluster_count,
+                  cnrtQueue_t queue, void* y, const void* x, const void* w,
+                  const size_t* shape, const ptrdiff_t* y_strides,
+                  const ptrdiff_t* x_strides, float eps, int ndim) {
   cnrtDim3_t kernel_dim;
   cnrtFunctionType_t kernel_type;
 
@@ -263,23 +263,23 @@ void RmsNormUnion(void *workspace, int core_per_cluster, int cluster_count,
   }
 
   // Prepare device pointers.
-  auto y_ = reinterpret_cast<T *>(y);
-  auto x_ = reinterpret_cast<const T *>(x);
-  auto w_ = reinterpret_cast<const TW *>(w);
-  char *tmp_device = reinterpret_cast<char *>(workspace);
-  char *tmp_stride = tmp_device + ndim * sizeof(size_t);
-  size_t *mlu_shape = (size_t *)tmp_device;
-  ptrdiff_t *mlu_x_strides = (ptrdiff_t *)tmp_stride;
-  ptrdiff_t *mlu_y_strides = mlu_x_strides + ndim;
+  auto y_ = reinterpret_cast<T*>(y);
+  auto x_ = reinterpret_cast<const T*>(x);
+  auto w_ = reinterpret_cast<const TW*>(w);
+  char* tmp_device = reinterpret_cast<char*>(workspace);
+  char* tmp_stride = tmp_device + ndim * sizeof(size_t);
+  size_t* mlu_shape = (size_t*)tmp_device;
+  ptrdiff_t* mlu_x_strides = (ptrdiff_t*)tmp_stride;
+  ptrdiff_t* mlu_y_strides = mlu_x_strides + ndim;
 
   // Copy shape and stride information to device.
-  CNRT_CHECK(cnrtMemcpyAsync(mlu_shape, const_cast<size_t *>(shape),
+  CNRT_CHECK(cnrtMemcpyAsync(mlu_shape, const_cast<size_t*>(shape),
                              ndim * sizeof(size_t), queue,
                              cnrtMemcpyHostToDev));  // const not supported
-  CNRT_CHECK(cnrtMemcpyAsync(mlu_x_strides, const_cast<ptrdiff_t *>(x_strides),
+  CNRT_CHECK(cnrtMemcpyAsync(mlu_x_strides, const_cast<ptrdiff_t*>(x_strides),
                              ndim * sizeof(ptrdiff_t), queue,
                              cnrtMemcpyHostToDev));
-  CNRT_CHECK(cnrtMemcpyAsync(mlu_y_strides, const_cast<ptrdiff_t *>(y_strides),
+  CNRT_CHECK(cnrtMemcpyAsync(mlu_y_strides, const_cast<ptrdiff_t*>(y_strides),
                              ndim * sizeof(ptrdiff_t), queue,
                              cnrtMemcpyHostToDev));
 
@@ -289,44 +289,44 @@ void RmsNormUnion(void *workspace, int core_per_cluster, int cluster_count,
   cnrtQueueSync(queue);
 }
 
-template void RmsNormUnion<__half, __half>(void *, int, int, cnrtQueue_t,
-                                           void *, const void *, const void *,
-                                           const size_t *, const ptrdiff_t *,
-                                           const ptrdiff_t *, float, int);
+template void RmsNormUnion<__half, __half>(void*, int, int, cnrtQueue_t, void*,
+                                           const void*, const void*,
+                                           const size_t*, const ptrdiff_t*,
+                                           const ptrdiff_t*, float, int);
 
 template void RmsNormUnion<__half, __bang_bfloat16>(
-    void *, int, int, cnrtQueue_t, void *, const void *, const void *,
-    const size_t *, const ptrdiff_t *, const ptrdiff_t *, float, int);
+    void*, int, int, cnrtQueue_t, void*, const void*, const void*,
+    const size_t*, const ptrdiff_t*, const ptrdiff_t*, float, int);
 
-template void RmsNormUnion<__half, float>(void *, int, int, cnrtQueue_t, void *,
-                                          const void *, const void *,
-                                          const size_t *, const ptrdiff_t *,
-                                          const ptrdiff_t *, float, int);
+template void RmsNormUnion<__half, float>(void*, int, int, cnrtQueue_t, void*,
+                                          const void*, const void*,
+                                          const size_t*, const ptrdiff_t*,
+                                          const ptrdiff_t*, float, int);
 
 template void RmsNormUnion<__bang_bfloat16, __half>(
-    void *, int, int, cnrtQueue_t, void *, const void *, const void *,
-    const size_t *, const ptrdiff_t *, const ptrdiff_t *, float, int);
+    void*, int, int, cnrtQueue_t, void*, const void*, const void*,
+    const size_t*, const ptrdiff_t*, const ptrdiff_t*, float, int);
 
 template void RmsNormUnion<__bang_bfloat16, __bang_bfloat16>(
-    void *, int, int, cnrtQueue_t, void *, const void *, const void *,
-    const size_t *, const ptrdiff_t *, const ptrdiff_t *, float, int);
+    void*, int, int, cnrtQueue_t, void*, const void*, const void*,
+    const size_t*, const ptrdiff_t*, const ptrdiff_t*, float, int);
 
 template void RmsNormUnion<__bang_bfloat16, float>(
-    void *, int, int, cnrtQueue_t, void *, const void *, const void *,
-    const size_t *, const ptrdiff_t *, const ptrdiff_t *, float, int);
+    void*, int, int, cnrtQueue_t, void*, const void*, const void*,
+    const size_t*, const ptrdiff_t*, const ptrdiff_t*, float, int);
 
-template void RmsNormUnion<float, __half>(void *, int, int, cnrtQueue_t, void *,
-                                          const void *, const void *,
-                                          const size_t *, const ptrdiff_t *,
-                                          const ptrdiff_t *, float, int);
+template void RmsNormUnion<float, __half>(void*, int, int, cnrtQueue_t, void*,
+                                          const void*, const void*,
+                                          const size_t*, const ptrdiff_t*,
+                                          const ptrdiff_t*, float, int);
 
 template void RmsNormUnion<float, __bang_bfloat16>(
-    void *, int, int, cnrtQueue_t, void *, const void *, const void *,
-    const size_t *, const ptrdiff_t *, const ptrdiff_t *, float, int);
+    void*, int, int, cnrtQueue_t, void*, const void*, const void*,
+    const size_t*, const ptrdiff_t*, const ptrdiff_t*, float, int);
 
-template void RmsNormUnion<float, float>(void *, int, int, cnrtQueue_t, void *,
-                                         const void *, const void *,
-                                         const size_t *, const ptrdiff_t *,
-                                         const ptrdiff_t *, float, int);
+template void RmsNormUnion<float, float>(void*, int, int, cnrtQueue_t, void*,
+                                         const void*, const void*,
+                                         const size_t*, const ptrdiff_t*,
+                                         const ptrdiff_t*, float, int);
 
 }  // namespace infini::ops
@@ -5,17 +5,18 @@
 #include <cstdint>
 #include <vector>
 
-#include "../common.h"
+#include "cambricon/common.h"
+#include "cambricon/device_.h"
 #include "base/rms_norm.h"
 
 namespace infini::ops {
 
 // TODO: Remove forward declaration.
 template <typename T, typename Tw>
-void RmsNormUnion(void *workspace, int core_per_cluster, int cluster_count,
-                  cnrtQueue_t queue, void *y, const void *x, const void *w,
-                  const size_t *shape, const ptrdiff_t *y_strides,
-                  const ptrdiff_t *x_strides, float eps, int ndim);
+void RmsNormUnion(void* workspace, int core_per_cluster, int cluster_count,
+                  cnrtQueue_t queue, void* y, const void* x, const void* w,
+                  const size_t* shape, const ptrdiff_t* y_strides,
+                  const ptrdiff_t* x_strides, float eps, int ndim);
 
 template <>
 class Operator<RmsNorm, Device::Type::kCambricon> : public RmsNorm {
@@ -33,6 +34,7 @@ class Operator<RmsNorm, Device::Type::kCambricon> : public RmsNorm {
     auto workspace{workspace_ ? workspace_ : default_workspace_};
 
     DispatchFunc<
+        Device::Type::kCambricon,
         List<DataType::kFloat16, DataType::kBFloat16, DataType::kFloat32>,
         List<DataType::kFloat16, DataType::kBFloat16, DataType::kFloat32>>(
         {input.dtype(), weight.dtype()},
@@ -41,8 +43,8 @@ class Operator<RmsNorm, Device::Type::kCambricon> : public RmsNorm {
           using WeightT = typename decltype(weight_tag)::type;
 
           RmsNormUnion<InputT, WeightT>(
-              workspace, core_per_cluster, cluster_count, queue,
-              out.data(), input.data(), weight.data(), out_shape_.data(),
+              workspace, core_per_cluster, cluster_count, queue, out.data(),
+              input.data(), weight.data(), out_shape_.data(),
               out_strides_.data(), input_strides_.data(), eps, ndim_);
         },
         "CambriconRmsNorm::operator() - output dispatch");
@@ -54,7 +56,7 @@ class Operator<RmsNorm, Device::Type::kCambricon> : public RmsNorm {
     return ndim_ * (sizeof(size_t) + 2 * sizeof(ptrdiff_t));
   }
 
-  void *default_workspace_{nullptr};
+  void* default_workspace_{nullptr};
   int core_per_cluster = 0;
   int cluster_count = 0;
 };
 
@@ -14,7 +14,7 @@ struct ConstexprMap {
       : data_(data) {}
 
   constexpr Value at(Key key) const {
-    for (const auto &pr : data_) {
+    for (const auto& pr : data_) {
       if (pr.first == key) return pr.second;
     }
     // TODO(lzm): change to logging.
 
@@ -20,7 +20,7 @@ class Operator<Add, Device::Type::kCpu> : public Add,
 
   void operator()(const Tensor input, const Tensor other,
                   Tensor out) const override {
-    DispatchFunc<AllTypes>(
+    DispatchFunc<Device::Type::kCpu, AllTypes>(
         out_type_,
         [&](auto tag) {
           using T = typename decltype(tag)::type;
@@ -32,8 +32,9 @@ class Operator<Add, Device::Type::kCpu> : public Add,
  private:
   template <typename T>
   void Compute(const Tensor input, const Tensor other, Tensor out) const {
-    using ComputeType =
-        std::conditional_t<IsBFloat16<T> || IsFP16<T>, float, T>;
+    using ComputeType = std::conditional_t<IsBFloat16<Device::Type::kCpu, T> ||
+                                               IsFP16<Device::Type::kCpu, T>,
+                                           float, T>;
 
     const auto* input_ptr = static_cast<const T*>(input.data());
     const auto* other_ptr = static_cast<const T*>(other.data());
 
@@ -4,6 +4,7 @@
 #include <type_traits>
 
 #include "caster.h"
+#include "cpu/device_.h"
 
 namespace infini::ops {
 
@@ -21,8 +22,10 @@ struct Caster<Device::Type::kCpu> {
       return std::forward<Src>(x);
     }
 
-    constexpr bool src_is_custom = IsBFloat16<PureSrc> || IsFP16<PureSrc>;
-    constexpr bool dst_is_custom = IsBFloat16<PureDst> || IsFP16<PureDst>;
+    constexpr bool src_is_custom = IsBFloat16<Device::Type::kCpu, PureSrc> ||
+                                   IsFP16<Device::Type::kCpu, PureSrc>;
+    constexpr bool dst_is_custom = IsBFloat16<Device::Type::kCpu, PureDst> ||
+                                   IsFP16<Device::Type::kCpu, PureDst>;
 
     if constexpr (!src_is_custom && !dst_is_custom) {
       return static_cast<PureDst>(std::forward<Src>(x));
 
@@ -18,7 +18,7 @@ class Operator<CausalSoftmax, Device::Type::kCpu> : public CausalSoftmax,
   Operator(const Tensor input, Tensor out) : CausalSoftmax{input, out} {}
 
   void operator()(const Tensor input, Tensor out) const override {
-    DispatchFunc<AllFloatTypes>(
+    DispatchFunc<Device::Type::kCpu, AllFloatTypes>(
         out.dtype(),
         [&](auto tag) {
           using T = typename decltype(tag)::type;
 
@@ -0,0 +1,21 @@
+#ifndef INFINI_OPS_CPU_DEVICE__H_
+#define INFINI_OPS_CPU_DEVICE__H_
+
+#include "data_type.h"
+#include "device.h"
+
+namespace infini::ops {
+
+template <>
+struct TypeMap<Device::Type::kCpu, DataType::kFloat16> {
+  using type = Float16;
+};
+
+template <>
+struct TypeMap<Device::Type::kCpu, DataType::kBFloat16> {
+  using type = BFloat16;
+};
+
+}  // namespace infini::ops
+
+#endif
@@ -31,7 +31,7 @@ class Operator<Gemm, Device::Type::kCpu> : public Gemm,
   void operator()(const Tensor a, const Tensor b, std::optional<float> alpha,
                   std::optional<float> beta, std::optional<int> trans_a,
                   std::optional<int> trans_b, Tensor c) const override {
-    DispatchFunc<AllFloatTypes>(
+    DispatchFunc<Device::Type::kCpu, AllFloatTypes>(
         c.dtype(),
         [&](auto tag) {
           using T = typename decltype(tag)::type;
 
@@ -19,7 +19,7 @@ class Operator<RmsNorm, Device::Type::kCpu> : public RmsNorm,
 
   void operator()(const Tensor input, const Tensor weight, float eps,
                   Tensor out) const override {
-    DispatchFunc<AllFloatTypes>(
+    DispatchFunc<Device::Type::kCpu, AllFloatTypes>(
         out.dtype(),
         [&](auto tag) {
           using T = typename decltype(tag)::type;
Original file line number	Diff line number	Diff line change
`@@ -14,7 +14,7 @@ struct ConstexprMap {`
`14`	`14`	`: data_(data) {}`
`15`	`15`
`16`	`16`	`constexpr Value at(Key key) const {`
`17`		`- for (const auto &pr : data_) {`
	`17`	`+ for (const auto& pr : data_) {`
`18`	`18`	`if (pr.first == key) return pr.second;`
`19`	`19`	`}`
`20`	`20`	`// TODO(lzm): change to logging.`