InfiniTensor
diff --git a/‎CMakeLists.txt‎
Lines changed: 119 additions & 2 deletions b/‎CMakeLists.txt‎
Lines changed: 119 additions & 2 deletions
diff --git a/‎infini_train/include/autocast.h‎
Lines changed: 2 additions & 1 deletion b/‎infini_train/include/autocast.h‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎infini_train/include/common/maca/common_maca.h‎
Lines changed: 43 additions & 0 deletions b/‎infini_train/include/common/maca/common_maca.h‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎infini_train/include/common/maca/cub_compat.cuh‎
Lines changed: 14 additions & 0 deletions b/‎infini_train/include/common/maca/cub_compat.cuh‎
Lines changed: 14 additions & 0 deletions
@@ -1,9 +1,28 @@
 cmake_minimum_required(VERSION 3.28)
 
+# Platforms
 option(USE_CUDA "Support NVIDIA CUDA" OFF)
+option(USE_MACA "Support MetaX MACA" OFF)
+
 option(PROFILE_MODE "ENABLE PROFILE MODE" OFF)
 option(USE_OMP "Use OpenMP as backend for Eigen" ON)
-option(USE_NCCL "Build project for distributed running" ON)
+option(USE_NCCL "Build project for distributed running on CUDA using NCCL" ON)
+option(USE_MCCL "Build project for distributed running on MACA using MCCL" ON)
+
+# ------------------------------------------------------------------------------
+# MACA toolchain override (must happen before project())
+# ------------------------------------------------------------------------------
+# When targeting MetaX MACA, the C/C++ compiler must be mxcc so that .maca
+# sources and device code can be compiled by the MACA toolchain.
+if(USE_MACA)
+  set(MACA_PATH $ENV{MACA_PATH})
+  if(NOT MACA_PATH)
+    message(FATAL_ERROR "USE_MACA=ON but environment variable MACA_PATH is not set. "
+                        "Please export MACA_PATH (e.g. /opt/maca) before configuring.")
+  endif()
+  set(CMAKE_C_COMPILER   "${MACA_PATH}/mxgpu_llvm/bin/mxcc")
+  set(CMAKE_CXX_COMPILER "${MACA_PATH}/mxgpu_llvm/bin/mxcc")
+endif()
 
 project(infini_train VERSION 0.5.0 LANGUAGES CXX)
 
@@ -31,6 +50,22 @@ include_directories(${glog_SOURCE_DIR}/src)
 # eigen
 if(USE_OMP)
   find_package(OpenMP REQUIRED)
+
+  set(INFINI_OMP_LIBS OpenMP::OpenMP_CXX)
+
+  # Under MACA/mxcc, the host compiler is LLVM-based; link mxomp (iomp5) instead
+  # of libgomp to stay ABI-compatible with the MACA toolchain.
+  if(USE_MACA)
+    find_library(INFINI_MACA_OMP_LIB
+      NAMES omp iomp5
+      HINTS
+        "${MACA_PATH}/lib"
+        "${MACA_PATH}/mxgpu_llvm/lib"
+        "${MACA_PATH}/mxgpu_llvm/lib64"
+      REQUIRED
+    )
+    set(INFINI_OMP_LIBS OpenMP::OpenMP_CXX ${INFINI_MACA_OMP_LIB})
+  endif()
 endif()
 add_subdirectory(third_party/eigen)
 include_directories(${PROJECT_SOURCE_DIR}/third_party/eigen)
@@ -48,9 +83,25 @@ endif()
 # Framework core sources (*.cc), excluding cpu kernels (they are built separately)
 file(GLOB_RECURSE SRC ${PROJECT_SOURCE_DIR}/infini_train/src/*.cc)
 list(FILTER SRC EXCLUDE REGEX ".*kernels/cpu/.*")
+
+# Exclude backend-specific runtime/ccl translation units when the corresponding
+# backend is disabled. This keeps each build self-contained and avoids pulling
+# in headers (e.g. <cuda_runtime.h> / <mcr/mc_runtime.h>) that aren't on the
+# include path.
+if(NOT USE_CUDA)
+  list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/runtime/cuda/.*")
+  list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/ccl/cuda/.*")
+endif()
+if(NOT USE_MACA)
+  list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/runtime/maca/.*")
+  list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/ccl/maca/.*")
+endif()
 if(NOT USE_NCCL)
   list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/ccl/cuda/.*")
 endif()
+if(NOT USE_MCCL)
+  list(FILTER SRC EXCLUDE REGEX ".*infini_train/src/core/ccl/maca/.*")
+endif()
 
 # CPU kernels (*.cc)
 file(GLOB_RECURSE CPU_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/kernels/cpu/*.cc)
@@ -64,7 +115,7 @@ target_link_libraries(infini_train_cpu_kernels PUBLIC glog Eigen3::Eigen)
 
 if(USE_OMP)
   add_compile_definitions(USE_OMP=1)
-  target_link_libraries(infini_train_cpu_kernels PUBLIC OpenMP::OpenMP_CXX)
+  target_link_libraries(infini_train_cpu_kernels PUBLIC ${INFINI_OMP_LIBS})
 endif()
 
 # ------------------------------------------------------------------------------
@@ -103,6 +154,46 @@ if(USE_CUDA)
   endif()
 endif()
 
+# ------------------------------------------------------------------------------
+# MACA kernels library (optional, MetaX backend)
+# ------------------------------------------------------------------------------
+
+if(USE_MACA)
+  add_compile_definitions(USE_MACA=1)
+
+  # ---- MACA SDK include / link paths ----
+  include_directories("${MACA_PATH}/include")
+  link_directories("${MACA_PATH}/lib")
+
+  # ---- MACA runtime / blas / (optional) mccl libraries ----
+  find_library(MACA_RUNTIME_LIB NAMES mcruntime HINTS "${MACA_PATH}/lib" REQUIRED)
+  find_library(MACA_DNN_LIB     NAMES mcdnn     HINTS "${MACA_PATH}/lib" REQUIRED)
+  find_library(MACA_BLAS_LIB    NAMES mcblas    HINTS "${MACA_PATH}/lib" REQUIRED)
+
+  # ---- Collect .maca kernel sources and build as a CXX static lib with -x maca ----
+  file(GLOB_RECURSE MACA_KERNELS ${PROJECT_SOURCE_DIR}/infini_train/src/kernels/maca/*.maca)
+  set_source_files_properties(${MACA_KERNELS} PROPERTIES
+    LANGUAGE CXX
+    COMPILE_OPTIONS "-x;maca"
+  )
+
+  add_library(infini_train_maca_kernels STATIC ${MACA_KERNELS})
+  target_link_libraries(infini_train_maca_kernels
+    PUBLIC
+      glog
+      ${MACA_RUNTIME_LIB}
+      ${MACA_DNN_LIB}
+      ${MACA_BLAS_LIB}
+  )
+
+  if(USE_MCCL)
+    message(STATUS "Add USE_MCCL, use MCCL with MACA")
+    find_library(MACA_COMM_LIB NAMES mccl HINTS "${MACA_PATH}/lib" REQUIRED)
+    add_compile_definitions(USE_MCCL=1)
+    target_link_libraries(infini_train_maca_kernels PUBLIC ${MACA_COMM_LIB})
+  endif()
+endif()
+
 # ------------------------------------------------------------------------------
 # Main framework library
 # ------------------------------------------------------------------------------
@@ -133,6 +224,22 @@ if(USE_CUDA)
   endif()
 endif()
 
+if(USE_MACA)
+  # infini_train contains MACA runtime wrappers (maca_guard_impl.cc / maca_runtime_common.cc /
+  # mccl_impl.cc) which reference mcruntime / mcblas / mccl symbols directly at final link.
+  target_link_libraries(infini_train
+    PUBLIC
+      infini_train_maca_kernels
+      ${MACA_RUNTIME_LIB}
+      ${MACA_DNN_LIB}
+      ${MACA_BLAS_LIB}
+  )
+
+  if(USE_MCCL)
+    target_link_libraries(infini_train PUBLIC ${MACA_COMM_LIB})
+  endif()
+endif()
+
 # ------------------------------------------------------------------------------
 # Helper: link libraries in a group to fix static lib one-pass resolution
 # (THIS is what fixes "undefined reference" from cuda_kernels -> core symbols)
@@ -148,6 +255,16 @@ function(link_infini_train_exe target_name)
       "-Wl,--no-whole-archive"
       "-Wl,--end-group"
     )
+  elseif(USE_MACA)
+    target_link_libraries(${target_name} PRIVATE
+      "-Wl,--start-group"
+      "-Wl,--whole-archive"
+        infini_train
+        infini_train_cpu_kernels
+        infini_train_maca_kernels
+      "-Wl,--no-whole-archive"
+      "-Wl,--end-group"
+    )
   else()
     target_link_libraries(${target_name} PRIVATE
       "-Wl,--start-group"
 
@@ -88,7 +88,8 @@ inline const std::unordered_map<std::string_view, CastPolicy> kOpCastPolicyMap =
 // Default autocast data types for each device type
 inline constexpr std::array<DataType, static_cast<size_t>(Device::DeviceType::kCount)> kDeviceDefaultDtype = {
     DataType::kBFLOAT16, // CPU
-    DataType::kFLOAT16,  // CUDA.
+    DataType::kFLOAT16,  // CUDA
+    DataType::kFLOAT16,  // MACA
 };
 
 // Thread-local context to track autocast state
 
@@ -0,0 +1,43 @@
+#pragma once
+
+#include <mcr/mc_runtime.h>
+#include <mcr/mc_runtime_api.h>
+#include <mcblas/mcblas.h>
+
+#ifdef USE_MCCL
+#include <mccl.h>
+#endif
+
+#include "glog/logging.h"
+
+namespace infini_train::common::maca {
+
+// Common MACA Macros
+#define MACA_CHECK(call)                                                                                               \
+    do {                                                                                                               \
+        mcError_t status = call;                                                                                       \
+        if (status != mcSuccess) {                                                                                     \
+            LOG(FATAL) << "MACA Error: " << mcGetErrorString(status) << " at " << __FILE__ << ":" << __LINE__;         \
+        }                                                                                                              \
+    } while (0)
+
+#define MCBLAS_CHECK(call)                                                                                             \
+    do {                                                                                                               \
+        mcblasStatus_t status = call;                                                                                  \
+        if (status != MCBLAS_STATUS_SUCCESS) {                                                                         \
+            LOG(FATAL) << "MCBLAS Error: " << mcblasGetStatusString(status) << " at " << __FILE__ << ":" << __LINE__;  \
+        }                                                                                                              \
+    } while (0)
+
+#ifdef USE_MCCL
+#define MCCL_CHECK(expr)                                                                                               \
+    do {                                                                                                               \
+        mcclResult_t _status = (expr);                                                                                 \
+        if (_status != mcclSuccess) {                                                                                  \
+            LOG(FATAL) << "MCCL error: " << mcclGetErrorString(_status) << " at " << __FILE__ << ":" << __LINE__       \
+                       << " (" << #expr << ")";                                                                        \
+        }                                                                                                              \
+    } while (0)
+#endif
+
+} // namespace infini_train::common::maca
@@ -0,0 +1,14 @@
+#pragma once
+
+#include <cub/cub.cuh>
+
+namespace infini_train::kernels::maca {
+
+// MACA ships a CUB compatible with the pre-2.8 API (cub::Sum/Max/Min).
+// Mirror the CUDA cub_compat.cuh aliases so that kernel code can refer to
+// CubSumOp / CubMaxOp / CubMinOp uniformly across backends.
+using CubSumOp = cub::Sum;
+using CubMaxOp = cub::Max;
+using CubMinOp = cub::Min;
+
+} // namespace infini_train::kernels::maca