WenboCodes
diff --git a/‎.github/workflows/deploy-docs.yml‎
Lines changed: 55 additions & 0 deletions b/‎.github/workflows/deploy-docs.yml‎
Lines changed: 55 additions & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 0 deletions b/‎.gitignore‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎PTO_IR_API_comments.md‎
Lines changed: 96 additions & 0 deletions b/‎PTO_IR_API_comments.md‎
Lines changed: 96 additions & 0 deletions
diff --git a/‎README.md‎
Lines changed: 32 additions & 0 deletions b/‎README.md‎
Lines changed: 32 additions & 0 deletions
diff --git a/‎bin_intrinsic.md‎
Lines changed: 77 additions & 0 deletions b/‎bin_intrinsic.md‎
Lines changed: 77 additions & 0 deletions
diff --git a/‎docs/README.md‎
Lines changed: 15 additions & 0 deletions b/‎docs/README.md‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎docs/bin-intrinsic.md‎
Lines changed: 77 additions & 0 deletions b/‎docs/bin-intrinsic.md‎
Lines changed: 77 additions & 0 deletions
@@ -0,0 +1,55 @@
+name: deploy-docs
+
+on:
+  push:
+    branches:
+      - main
+    paths:
+      - "docs/**"
+      - "mkdocs.yml"
+      - "requirements.txt"
+      - ".github/workflows/deploy-docs.yml"
+  workflow_dispatch:
+
+permissions:
+  contents: read
+  pages: write
+  id-token: write
+
+concurrency:
+  group: pages
+  cancel-in-progress: true
+
+jobs:
+  build:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout
+        uses: actions/checkout@v4
+
+      - name: Setup Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+
+      - name: Install dependencies
+        run: pip install -r requirements.txt
+
+      - name: Build docs
+        run: mkdocs build --strict
+
+      - name: Upload Pages artifact
+        uses: actions/upload-pages-artifact@v3
+        with:
+          path: site
+
+  deploy:
+    needs: build
+    runs-on: ubuntu-latest
+    environment:
+      name: github-pages
+      url: ${{ steps.deployment.outputs.page_url }}
+    steps:
+      - name: Deploy to GitHub Pages
+        id: deployment
+        uses: actions/deploy-pages@v4
@@ -0,0 +1,4 @@
+site/
+.venv/
+__pycache__/
+*.pyc
@@ -0,0 +1,96 @@
+问题梳理：
+1. Section 1的问题：
+    * 题目改为PTO IR Reference
+    * 第一段不需要提LLVM版本号
+
+2. Section 2的问题：
+    * type system的定义，element types与nv tileir保持一致。参考nv TileIR文档(https://docs.nvidia.com/cuda/tile-ir/latest/sections/types.html)
+    * pto.ptr, pto.tile, pto.tile_buf标明待补充
+
+3. Section 3的问题：
+    * Address space的定义
+    * Pipe的定义
+    * Layout包括BLayout，SLayout和PadValue，参照pto-isa仓的介绍
+
+4. Section4的问题：
+    * 删除整个section
+
+5. Section5的问题：
+    * pto.make_tensor_view参考附录
+    * pto.partition_view参考附录
+    * pto.alloc_tile对一个tile buffer的生命，每一个alloc_tile对应一个独立的tile buffer。alloc_tile()可以接受一个输入参数，即代表起始地址。默认没有输入参数，代表地址由编译器分别。
+    * pto.bind_tile不确定是否保留，请标明`待讨论`
+    * pto.subset改为pto.subview，即代表了新生命的tile buffer是输入tile buffer的一部分。
+    * pto.tload/tstore的定义修改和补充，见附录
+    * pto.ttrans需要一个tmp的输入，这个重点标注一下`待讨论`
+    * 标注一下pto.tmov和pto.copy区别是啥
+    * 删除掉pto.load_dps和pto.store_dps和pto.mov_dps
+    * pto.tmatmul去掉bias输入
+    * 去掉所有以_dps结尾的api接口相关定义
+    *` 5.16 Control Flow Operations`修改为`5.16 CV相关 operation`
+    
+
+
+6. 增加一个Rationale的section
+PTO IR中的Tile与Tensor不同，不是SSA格式的。其pto.tile_buf是一层buffer的语义，而不是value。这么做的目的是为了把tiling或内存分配的工作交给程序员或上层框架，PTO AS的pass仅关注调度和排流水。内存分配在编译器里面是一个NP-hard的问题，而排流水同时也是一个NP-hard的问题。这两个NP-hard的问题在一起会对编译pass的结果产生非常大的困扰。因此，在PTO IR的pipeline设计中，buffer复用的问题由用户解决，通过`pto.alloc_tile`来声明tile.buf的生命周期。
+
+##附录：
+pto.make_tensor_view
+功能：通过指针建立 GlobalTensor 的构造函数 (Constructor)。定义全局内存 (Global Memory) 中原始数据的“物理大底座”。
+● 详细解释：此指令不涉及数据搬运，仅用于声明数据在内存中的排列规则（Strides）。它是所有视图变换的基准，确保后续的切片操作能准确定位物理地址。
+● 分型映射：若输入视图带有特定 Stride 模式，编译器在此阶段自动注入 Layout::NZ 等硬件提示，指导后续调用 DMA 分型搬运指令，实现最高效率的加载。
+● 映射逻辑： 
+    ○ 映射为 GlobalTensor 的 Stride<...> 模板参数。
+    ○ 决定了 Tensor 的“视野边界”。
+2.2 pto.partition_view
+功能：逻辑窗口切分。在大视图上截取特定的计算区域，生成分块视图。
+● 详细解释：无论 Shape 是静态还是动态，均通过 partition_view 捕获。它承载了 offsets（决定“从哪开始读”）和 sizes（决定“读多少”），其返回类型为 !pto.partition_tensor_view。
+● 映射逻辑： 
+    ○ 指针偏移：编译器自动生成 BasePtr + Offset。
+    ○ 逻辑 Shape：映射为 GlobalTensor 的 Shape<...> 模板参数。
+2.3 pto.tload
+功能：物理搬运与维度塌缩 (Dimension Collapse)。
+● 详细解释： 
+    ○ 严格类型约束：仅接受 partition_tensor_view（逻辑高维）作为输入，输出必须为 tile_buf（物理 2D）。
+    ○ 核心约束：partition_view 中所有 size 维度的乘积，必须等于 tile_buf 的 valid_row 与 valid_col 的乘积。
+    ○ 语义映射：partition_tensor_view 是高维逻辑视图，而 tile_buf 是二维物理实体。pto.tload 完成了从 N 维到 2 维的线性映射。
+3. 映射逻辑示例 (From IR to C++)
+场景 A：完全静态 Shape (降维加载)
+IR Expression:
+// 1. 定义 5D 物理视图 (1, 1, 16, 1024, 1024)
+%0 = pto.make_tensor_view %arg0, 
+    shape = [1, 1, 16, 1024, 1024], 
+    strides = [1048576, 1048576, 1048576, 1024, 1] 
+    : !pto.tensor_view<1x1x16x1024x1024xf32>
+
+// 2. 使用 partition_view 切出 5D 子视图，总元素量 = 1*1*16*16*16 = 4096
+%1 = pto.partition_view %0, offsets = [0,0,0,0,0], sizes = [1, 1, 16, 16, 16] 
+     : !pto.tensor_view<1x1x16x1024x1024xf32> -> !pto.partition_tensor_view<1x1x16x16x16xf32>
+
+// 3. 执行 TLOAD，目标 Tile 256x16, 总容量 = 256*16 = 4096
+// 满足约束：1*1*16*16*16 == 256*16
+pto.tload ins(%1 : !pto.partition_tensor_view<1x1x16x16x16xf32>) 
+          outs(%tile : !pto.tile_buf<256x16xf32>)
+Generated PTO C++:
+// 编译器自动推导并将 5D 逻辑映射至硬件指令
+using ShapeDim = Shape<1, 1, 16, 16, 16>;
+using StrideDim = Stride<1, 1, 1048576, 1024, 1>;
+
+GlobalTensor<float, ShapeDim, StrideDim> src(srcPtr);
+
+// 触发硬件 TLOAD，完成高维数据到 256x16 Tile 的填充
+TLOAD(src, tile);
+场景 B：动态 Shape
+IR Expression:
+// sizes 使用了运行时变量 %v0, %v1
+%1 = pto.partition_view %0, offsets = [%x, %y], sizes = [%v0, %v1] 
+     : !pto.tensor_view<?x?xf32> -> !pto.partition_tensor_view<?x?xf32>
+Generated PTO C++:
+using ShapeDim = Shape<1, 1, 1, -1, -1>;
+using StrideDim = Stride<1, 1, 1, -1, 1>;
+
+GlobalTensor<float, ShapeDim, StrideDim> gQ(
+    srcPtr + (x * stride_val + y), 
+    ShapeDim(v0, v1), 
+    StrideDim(stride_val)
+);
@@ -0,0 +1,32 @@
+# PTO Docs (GitHub Pages)
+
+这个目录已经整理成可直接发布到 GitHub Pages 的 MkDocs 项目。
+
+## 目录结构
+
+- `docs/`: 文档正文
+- `mkdocs.yml`: 站点配置与导航
+- `requirements.txt`: 构建依赖
+- `.github/workflows/deploy-docs.yml`: 自动发布工作流
+
+## 本地预览
+
+```bash
+python3 -m venv .venv
+source .venv/bin/activate
+pip install -r requirements.txt
+mkdocs serve
+```
+
+默认访问 `http://127.0.0.1:8000`。
+
+## GitHub Pages 发布
+
+1. 把当前目录内容提交到 GitHub 仓库根目录（默认分支 `main`）。
+2. 在仓库设置中打开 `Settings -> Pages`。
+3. 在 `Build and deployment` 里将 `Source` 设为 `GitHub Actions`。
+4. 推送到 `main` 后，工作流 `deploy-docs` 会自动构建并发布。
+
+## 文档入口
+
+站点首页由 `docs/README.md` 提供，导航由 `mkdocs.yml` 管理。
@@ -0,0 +1,77 @@
+# BinIntrinsic 设计与参数映射说明
+
+## 1. 执行链路（Single-Issue 边界）
+`TBIN_INTRIN` 在 A2/A3 后端的执行路径：
+
+1. `TBIN_INTRIN<OpType>(...)`  
+   `include/pto/common/pto_instr.hpp:96`
+2. `TBIN_INTRIN_IMPL(...)`  
+   `include/pto/npu/a2a3/TBinIntrin.hpp:71`
+3. `BinaryIssueOnce(...)`  
+   `include/pto/npu/a2a3/TBinOp.hpp:21`
+4. `Op::BinInstr(...)` -> `vadd/vsub/vmul/vmax/vmin`  
+   `include/pto/npu/a2a3/TAdd.hpp:29`
+
+其中 `BinaryIssueOnce` 是最小粒度边界：一次调用只对应一次 CCE intrinsic 发射，不做循环拆分。
+
+## 2. `BinIntrinsicDesc` 字段与 CCE 参数对照
+定义位置：`include/pto/common/bin_intrinsic_desc.hpp:44`
+
+| 字段 | 映射到 CCE 参数 | 单位 | 约束 | 说明 |
+|---|---|---|---|---|
+| `repeat` | `repeats` | 次 | `0..255` | intrinsic 重复发射次数（u8） |
+| `dstBlockStride/src0BlockStride/src1BlockStride` | block stride | 32B block | `0..255` | 同一 repeat 内 block 间距 |
+| `dstRepeatStride/src0RepeatStride/src1RepeatStride` | repeat stride | 32B block | `0..255` | 相邻 repeat 间距 |
+| `maskMode` | mask mode | 枚举 | `Normal/Count` | 掩码语义选择 |
+| `vectorCount` | `SetVectorCount` | 元素数 | Count 模式必须 `>0` | Count 模式有效长度 |
+| `tailElements` | `SetContMaskByDType` | 元素数 | `<= 256/sizeof(T)` | Normal 模式尾裁剪 |
+| `repeatStrideMode/strideSizeMode` | 扩展模式标志 | 布尔 | 当前必须 `false` | A2/A3 工具链当前不支持 |
+
+## 3. 两种 Mask 语义
+校验和执行逻辑在：`include/pto/npu/a2a3/TBinOp.hpp:25`
+
+1. Count 模式
+- 要求：`repeat == 0` 且 `vectorCount > 0`
+- 动作：`set_mask_count()` + `SetVectorCount(vectorCount)` + 发射 intrinsic
+
+2. Normal 模式
+- 要求：`repeat > 0`
+- 可选：`tailElements > 0` 时先 `SetContMaskByDType<T>(tailElements)`
+- 限制：不允许 `repeat > 1 && tailElements > 0`（单次 issue 无法同时表达“多 repeat + tail”）
+
+## 4. 最小粒度暴露原则
+single-issue API 对外暴露的是“1 次 intrinsic 发射”的全部必要参数：
+
+1. 覆盖窗口（满发射）：`repeat * (256 / sizeof(T))` 元素
+2. 尾裁剪窗口（仅 Normal）：`tailElements`
+3. 地址模式：block stride + repeat stride（dst/src0/src1 三路独立）
+
+超过该粒度的工作（如 `repeat > 255`、复杂 tail 组合）由上层策略负责拆分为多次 `TBIN_INTRIN` 调用。
+
+## 5. 为什么拆出 `bin_intrinsic_desc.hpp`
+文件：`include/pto/common/bin_intrinsic_desc.hpp`
+
+1. 轻量依赖，只包含 `<cstdint>`，可直接用于 host/gtest 侧参数校验测试。
+2. 避免 `constants.hpp` 的设备限定符依赖（`__ubuf__`、`__gm__`）影响 host 编译。
+3. `constants.hpp` 通过 include 复用定义，保持原有代码兼容：
+   `include/pto/common/constants.hpp:13`
+
+## 6. 典型配置示例（FP32，64x64）
+示例来源：`tests/npu/a2a3/src/st/testcase/tadd/tadd_kernel.cpp:67`
+
+- `elemPerRepeat = 256 / 4 = 64`
+- `totalElements = 64 * 64 = 4096`
+- `repeat = 4096 / 64 = 64`
+- `dst/src0/src1 block stride = 1`
+- `dst/src0/src1 repeat stride = 8`（连续布局）
+
+这是“整 repeat、无 tail”的标准 intrinsic 直发场景。
+
+## 7. 参数校验接口（便于单测）
+定义位置：`include/pto/common/bin_intrinsic_desc.hpp:63`
+
+- `ValidateBinIntrinsicDesc<T>(desc)`：返回 `BinIntrinsicDescStatus`
+- `IsBinIntrinsicDescValid<T>(desc)`：返回 `bool`
+
+已有负例单测示例：
+`tests/npu/a2a3/src/st/testcase/tadd/main.cpp:254`
@@ -0,0 +1,15 @@
+# PTO 文档目录
+
+这是一组整理后的 Markdown 文档，适合直接放到 GitHub 仓库的 `docs/` 目录进行托管。
+
+## 文档导航
+
+1. [A3 版 TROWMAX 详细分析（面向小白到进阶）](./intrin-intro.md)
+2. [BinIntrinsic 设计与参数映射说明](./bin-intrinsic.md)
+3. [A2/A3 TBinOp 无循环 Intrinsic 化改造方案（含公开 Low-Level API）](./pto-intrinsic-plan.md)
+4. [PTO IR API 评审问题梳理](./pto-ir-api-comments.md)
+
+## 说明
+
+- 原始文件仍保留在 `/home/sunwenbo/tmp` 根目录。
+- 本目录下文件命名已统一为小写 + 连字符，便于链接与 URL 使用。
@@ -0,0 +1,77 @@
+# BinIntrinsic 设计与参数映射说明
+
+## 1. 执行链路（Single-Issue 边界）
+`TBIN_INTRIN` 在 A2/A3 后端的执行路径：
+
+1. `TBIN_INTRIN<OpType>(...)`  
+   `include/pto/common/pto_instr.hpp:96`
+2. `TBIN_INTRIN_IMPL(...)`  
+   `include/pto/npu/a2a3/TBinIntrin.hpp:71`
+3. `BinaryIssueOnce(...)`  
+   `include/pto/npu/a2a3/TBinOp.hpp:21`
+4. `Op::BinInstr(...)` -> `vadd/vsub/vmul/vmax/vmin`  
+   `include/pto/npu/a2a3/TAdd.hpp:29`
+
+其中 `BinaryIssueOnce` 是最小粒度边界：一次调用只对应一次 CCE intrinsic 发射，不做循环拆分。
+
+## 2. `BinIntrinsicDesc` 字段与 CCE 参数对照
+定义位置：`include/pto/common/bin_intrinsic_desc.hpp:44`
+
+| 字段 | 映射到 CCE 参数 | 单位 | 约束 | 说明 |
+|---|---|---|---|---|
+| `repeat` | `repeats` | 次 | `0..255` | intrinsic 重复发射次数（u8） |
+| `dstBlockStride/src0BlockStride/src1BlockStride` | block stride | 32B block | `0..255` | 同一 repeat 内 block 间距 |
+| `dstRepeatStride/src0RepeatStride/src1RepeatStride` | repeat stride | 32B block | `0..255` | 相邻 repeat 间距 |
+| `maskMode` | mask mode | 枚举 | `Normal/Count` | 掩码语义选择 |
+| `vectorCount` | `SetVectorCount` | 元素数 | Count 模式必须 `>0` | Count 模式有效长度 |
+| `tailElements` | `SetContMaskByDType` | 元素数 | `<= 256/sizeof(T)` | Normal 模式尾裁剪 |
+| `repeatStrideMode/strideSizeMode` | 扩展模式标志 | 布尔 | 当前必须 `false` | A2/A3 工具链当前不支持 |
+
+## 3. 两种 Mask 语义
+校验和执行逻辑在：`include/pto/npu/a2a3/TBinOp.hpp:25`
+
+1. Count 模式
+- 要求：`repeat == 0` 且 `vectorCount > 0`
+- 动作：`set_mask_count()` + `SetVectorCount(vectorCount)` + 发射 intrinsic
+
+2. Normal 模式
+- 要求：`repeat > 0`
+- 可选：`tailElements > 0` 时先 `SetContMaskByDType<T>(tailElements)`
+- 限制：不允许 `repeat > 1 && tailElements > 0`（单次 issue 无法同时表达“多 repeat + tail”）
+
+## 4. 最小粒度暴露原则
+single-issue API 对外暴露的是“1 次 intrinsic 发射”的全部必要参数：
+
+1. 覆盖窗口（满发射）：`repeat * (256 / sizeof(T))` 元素
+2. 尾裁剪窗口（仅 Normal）：`tailElements`
+3. 地址模式：block stride + repeat stride（dst/src0/src1 三路独立）
+
+超过该粒度的工作（如 `repeat > 255`、复杂 tail 组合）由上层策略负责拆分为多次 `TBIN_INTRIN` 调用。
+
+## 5. 为什么拆出 `bin_intrinsic_desc.hpp`
+文件：`include/pto/common/bin_intrinsic_desc.hpp`
+
+1. 轻量依赖，只包含 `<cstdint>`，可直接用于 host/gtest 侧参数校验测试。
+2. 避免 `constants.hpp` 的设备限定符依赖（`__ubuf__`、`__gm__`）影响 host 编译。
+3. `constants.hpp` 通过 include 复用定义，保持原有代码兼容：
+   `include/pto/common/constants.hpp:13`
+
+## 6. 典型配置示例（FP32，64x64）
+示例来源：`tests/npu/a2a3/src/st/testcase/tadd/tadd_kernel.cpp:67`
+
+- `elemPerRepeat = 256 / 4 = 64`
+- `totalElements = 64 * 64 = 4096`
+- `repeat = 4096 / 64 = 64`
+- `dst/src0/src1 block stride = 1`
+- `dst/src0/src1 repeat stride = 8`（连续布局）
+
+这是“整 repeat、无 tail”的标准 intrinsic 直发场景。
+
+## 7. 参数校验接口（便于单测）
+定义位置：`include/pto/common/bin_intrinsic_desc.hpp:63`
+
+- `ValidateBinIntrinsicDesc<T>(desc)`：返回 `BinIntrinsicDescStatus`
+- `IsBinIntrinsicDescValid<T>(desc)`：返回 `bool`
+
+已有负例单测示例：
+`tests/npu/a2a3/src/st/testcase/tadd/main.cpp:254`
-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +site/
 +.venv/
 +__pycache__/
 +*.pyc