InfiniTensor
diff --git a/‎include/infinicore/ops/flipud.hpp‎
Lines changed: 19 additions & 0 deletions b/‎include/infinicore/ops/flipud.hpp‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎include/infinicore/ops/float_power.hpp‎
Lines changed: 68 additions & 0 deletions b/‎include/infinicore/ops/float_power.hpp‎
Lines changed: 68 additions & 0 deletions
diff --git a/‎include/infinicore/ops/floor_divide.hpp‎
Lines changed: 16 additions & 0 deletions b/‎include/infinicore/ops/floor_divide.hpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎include/infinicore/ops/multi_margin_loss.hpp‎
Lines changed: 19 additions & 0 deletions b/‎include/infinicore/ops/multi_margin_loss.hpp‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎include/infinicore/ops/scatter.hpp‎
Lines changed: 21 additions & 0 deletions b/‎include/infinicore/ops/scatter.hpp‎
Lines changed: 21 additions & 0 deletions
diff --git a/‎include/infiniop.h‎
Lines changed: 5 additions & 0 deletions b/‎include/infiniop.h‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎include/infiniop/ops/flipud.h‎
Lines changed: 27 additions & 0 deletions b/‎include/infiniop/ops/flipud.h‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎include/infiniop/ops/float_power.h‎
Lines changed: 27 additions & 0 deletions b/‎include/infiniop/ops/float_power.h‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎include/infiniop/ops/floor_divide.h‎
Lines changed: 26 additions & 0 deletions b/‎include/infiniop/ops/floor_divide.h‎
Lines changed: 26 additions & 0 deletions
diff --git a/‎include/infiniop/ops/multi_margin_loss.h‎
Lines changed: 30 additions & 0 deletions b/‎include/infiniop/ops/multi_margin_loss.h‎
Lines changed: 30 additions & 0 deletions
@@ -0,0 +1,19 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+
+class Flipud {
+public:
+    // Schema signature: (Output, Input)
+    using schema = void (*)(Tensor, Tensor);
+
+    static void execute(Tensor output, Tensor input);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+Tensor flipud(Tensor input);
+void flipud_(Tensor output, Tensor input);
+
+} // namespace infinicore::op
@@ -0,0 +1,68 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+
+class FloatPower {
+public:
+    // ==========================================================
+    // Dispatcher Schemas
+    // ==========================================================
+
+    // Output = Input ^ Scalar (scalar must be double!)
+    using schema_scalar = void (*)(Tensor output,
+                                   Tensor input,
+                                   double exponent);
+
+    // Output = Input ^ Tensor
+    using schema_tensor = void (*)(Tensor output,
+                                   Tensor input,
+                                   Tensor exponent);
+
+    // ==========================================================
+    // Execute Entry Points (called by functional interface)
+    // ==========================================================
+
+    static void execute(Tensor output,
+                        Tensor input,
+                        double exponent);
+
+    static void execute(Tensor output,
+                        Tensor input,
+                        Tensor exponent);
+
+    // ==========================================================
+    // Dispatchers
+    // ==========================================================
+
+    static common::OpDispatcher<schema_scalar> &dispatcher_scalar();
+    static common::OpDispatcher<schema_tensor> &dispatcher_tensor();
+};
+
+// =======================================================================
+// Functional Interface (Python-visible semantics)
+// =======================================================================
+
+// -------------------------------
+// 1. Scalar Exponent
+// -------------------------------
+
+// out-of-place: ALWAYS float64
+Tensor float_power(Tensor input, double exponent);
+
+// in-place
+void float_power_(Tensor output, Tensor input, double exponent);
+
+// -------------------------------
+// 2. Tensor Exponent
+// -------------------------------
+
+// out-of-place: ALWAYS float64
+Tensor float_power(Tensor input, Tensor exponent);
+
+// in-place
+void float_power_(Tensor output, Tensor input, Tensor exponent);
+
+} // namespace infinicore::op
@@ -0,0 +1,16 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+class FloorDivide {
+public:
+    using schema = void (*)(Tensor, Tensor, Tensor);
+    static void execute(Tensor c, Tensor a, Tensor b);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor floor_divide(Tensor a, Tensor b);
+void floor_divide_(Tensor c, Tensor a, Tensor b);
+} // namespace infinicore::op
@@ -0,0 +1,19 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+
+class MultiMarginLoss {
+public:
+    using schema = void (*)(Tensor, Tensor, Tensor, Tensor, int64_t, float, int64_t);
+
+    static void execute(Tensor output, Tensor input, Tensor target, Tensor weight, int64_t p, float margin, int64_t reduction);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor multi_margin_loss(Tensor input, Tensor target, Tensor weight = {}, int64_t p = 1, float margin = 1.0f, int64_t reduction = 1);
+void multi_margin_loss_(Tensor output, Tensor input, Tensor target, Tensor weight, int64_t p, float margin, int64_t reduction);
+
+} // namespace infinicore::op
@@ -0,0 +1,21 @@
+#pragma once
+
+#include "../device.hpp"
+#include "common/op.hpp"
+
+namespace infinicore::op {
+
+class Scatter {
+public:
+    using schema = void (*)(Tensor, Tensor, int64_t, Tensor, Tensor, int64_t);
+
+    static void execute(Tensor output, Tensor input, int64_t dim, Tensor index, Tensor src, int64_t reduction);
+    static common::OpDispatcher<schema> &dispatcher();
+};
+
+Tensor scatter(Tensor input, int64_t dim, Tensor index, Tensor src, int64_t reduction = 0);
+
+// In-place / 指定 Output 接口
+void scatter_(Tensor output, Tensor input, int64_t dim, Tensor index, Tensor src, int64_t reduction);
+
+} // namespace infinicore::op
@@ -30,7 +30,10 @@
 #include "infiniop/ops/embedding.h"
 #include "infiniop/ops/equal.h"
 #include "infiniop/ops/flash_attention.h"
+#include "infiniop/ops/flipud.h"
+#include "infiniop/ops/float_power.h"
 #include "infiniop/ops/floor.h"
+#include "infiniop/ops/floor_divide.h"
 #include "infiniop/ops/fmin.h"
 #include "infiniop/ops/fmod.h"
 #include "infiniop/ops/gelu.h"
@@ -48,6 +51,7 @@
 #include "infiniop/ops/lp_norm.h"
 #include "infiniop/ops/masked_select.h"
 #include "infiniop/ops/mul.h"
+#include "infiniop/ops/multi_margin_loss.h"
 #include "infiniop/ops/ones.h"
 #include "infiniop/ops/paged_attention.h"
 #include "infiniop/ops/paged_attention_prefill.h"
@@ -60,6 +64,7 @@
 #include "infiniop/ops/relu.h"
 #include "infiniop/ops/rms_norm.h"
 #include "infiniop/ops/rope.h"
+#include "infiniop/ops/scatter.h"
 #include "infiniop/ops/sigmoid.h"
 #include "infiniop/ops/silu.h"
 #include "infiniop/ops/silu_and_mul.h"
 
@@ -0,0 +1,27 @@
+#ifndef __INFINIOP_FLIPUD_API_H__
+#define __INFINIOP_FLIPUD_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopFlipudDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateFlipudDescriptor(infiniopHandle_t handle,
+                                                                  infiniopFlipudDescriptor_t *desc_ptr,
+                                                                  infiniopTensorDescriptor_t output,
+                                                                  infiniopTensorDescriptor_t input);
+
+// 获取工作空间大小
+__INFINI_C __export infiniStatus_t infiniopGetFlipudWorkspaceSize(infiniopFlipudDescriptor_t desc, size_t *size);
+
+// 执行 Flipud 算子
+__INFINI_C __export infiniStatus_t infiniopFlipud(infiniopFlipudDescriptor_t desc,
+                                                  void *workspace,
+                                                  size_t workspace_size,
+                                                  void *output,
+                                                  const void *input,
+                                                  void *stream);
+
+// 销毁描述符
+__INFINI_C __export infiniStatus_t infiniopDestroyFlipudDescriptor(infiniopFlipudDescriptor_t desc);
+
+#endif // __INFINIOP_FLIPUD_API_H__
@@ -0,0 +1,27 @@
+#ifndef __INFINIOP_FLOAT_POWER_API_H__
+#define __INFINIOP_FLOAT_POWER_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopFloatPowerDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateFloatPowerDescriptor(infiniopHandle_t handle,
+                                                                      infiniopFloatPowerDescriptor_t *desc_ptr,
+                                                                      infiniopTensorDescriptor_t y,
+                                                                      infiniopTensorDescriptor_t x,
+                                                                      infiniopTensorDescriptor_t exponent,
+                                                                      float scalar_exponent);
+
+__INFINI_C __export infiniStatus_t infiniopGetFloatPowerWorkspaceSize(infiniopFloatPowerDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopFloatPower(infiniopFloatPowerDescriptor_t desc,
+                                                      void *workspace,
+                                                      size_t workspace_size,
+                                                      void *y,
+                                                      const void *x,
+                                                      const void *exponent,
+                                                      void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyFloatPowerDescriptor(infiniopFloatPowerDescriptor_t desc);
+
+#endif
@@ -0,0 +1,26 @@
+#ifndef __INFINIOP_FLOOR_DIVIDE_API_H__
+#define __INFINIOP_FLOOR_DIVIDE_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopFloorDivideDescriptor_t;
+
+__INFINI_C __export infiniStatus_t infiniopCreateFloorDivideDescriptor(infiniopHandle_t handle,
+                                                                       infiniopFloorDivideDescriptor_t *desc_ptr,
+                                                                       infiniopTensorDescriptor_t c,
+                                                                       infiniopTensorDescriptor_t a,
+                                                                       infiniopTensorDescriptor_t b);
+
+__INFINI_C __export infiniStatus_t infiniopGetFloorDivideWorkspaceSize(infiniopFloorDivideDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopFloorDivide(infiniopFloorDivideDescriptor_t desc,
+                                                       void *workspace,
+                                                       size_t workspace_size,
+                                                       void *c,
+                                                       const void *a,
+                                                       const void *b,
+                                                       void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyFloorDivideDescriptor(infiniopFloorDivideDescriptor_t desc);
+
+#endif
@@ -0,0 +1,30 @@
+#ifndef __INFINIOP_MULTI_MARGIN_LOSS_API_H__
+#define __INFINIOP_MULTI_MARGIN_LOSS_API_H__
+
+#include "../operator_descriptor.h"
+
+typedef struct InfiniopDescriptor *infiniopMultiMarginLossDescriptor_t;
+__INFINI_C __export infiniStatus_t infiniopCreateMultiMarginLossDescriptor(infiniopHandle_t handle,
+                                                                           infiniopMultiMarginLossDescriptor_t *desc_ptr,
+                                                                           infiniopTensorDescriptor_t output,
+                                                                           infiniopTensorDescriptor_t input,
+                                                                           infiniopTensorDescriptor_t target,
+                                                                           infiniopTensorDescriptor_t weight,
+                                                                           int p,
+                                                                           float margin,
+                                                                           int reduction);
+
+__INFINI_C __export infiniStatus_t infiniopGetMultiMarginLossWorkspaceSize(infiniopMultiMarginLossDescriptor_t desc, size_t *size);
+
+__INFINI_C __export infiniStatus_t infiniopMultiMarginLoss(infiniopMultiMarginLossDescriptor_t desc,
+                                                           void *workspace,
+                                                           size_t workspace_size,
+                                                           void *output,
+                                                           const void *input,
+                                                           const void *target,
+                                                           const void *weight,
+                                                           void *stream);
+
+__INFINI_C __export infiniStatus_t infiniopDestroyMultiMarginLossDescriptor(infiniopMultiMarginLossDescriptor_t desc);
+
+#endif // __INFINIOP_MULTI_MARGIN_LOSS_API_H__