1. 增加集合通信、前向与反向计算时长的最大/最小/平均值统计,并支持正常与异常 Rank 对比分析。(预计需要 1 month) 2. 引入更细粒度的事件分类,按计算 / 通信 / 数据加载等类型拆分,便于针对性分析。(预计需要 1 month) 3. 重构时间线对齐逻辑,显著提升跨 Rank 事件对齐精度与稳定性。(预计需要 2 month) 4. 提升异常检测算法的准确性与鲁棒性,扩展支持 Context Parallelism、Expert Parallelism 等并行模式。(长期,预计需要 3~6 months)
增加集合通信、前向与反向计算时长的最大/最小/平均值统计,并支持正常与异常 Rank 对比分析。(预计需要 1 month)
引入更细粒度的事件分类,按计算 / 通信 / 数据加载等类型拆分,便于针对性分析。(预计需要 1 month)
重构时间线对齐逻辑,显著提升跨 Rank 事件对齐精度与稳定性。(预计需要 2 month)
提升异常检测算法的准确性与鲁棒性,扩展支持 Context Parallelism、Expert Parallelism 等并行模式。(长期,预计需要 3~6 months)