在 DeepSeek 发布并开源实验性大模型 DeepSeek-V3.2-Exp 后,华为昇腾团队迅速完成对该模型的全栈适配,实现发布即支持(0day support),并在 CANN 平台完成深度优化。此次合作标志着国产 AI 芯片与前沿大模型架构在高效推理领域的又一次紧密协同。
- NPU DeepSeek-V3.2-Exp 推理优化实践:https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
- NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化:https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
- 基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践:https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
- 大模型推理框架 vLLM 及昇腾实现:
- https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
- 大模型推理框架 SGLang 及昇腾实现:
- https://github.com/sgl-project/sglang/issues/11060
- NPU DeepSeek-V3.2-Exp TileLang 算子开发实践:
- https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
- TileLang-Ascend 开源社区:
- https://github.com/tile-ai/tilelang-ascend
目前,昇腾已全面支持 vLLM、SGLang 等主流大模型推理框架对 V3.2-Exp 的部署,并将所有相关推理代码、融合算子实现及优化策略全部开源,面向全球开发者开放。

快速适配:从发布到部署仅一步之遥
DeepSeek-V3.2-Exp 最大的技术突破在于引入了 DeepSeek Sparse Attention (DSA) 架构,通过细粒度稀疏注意力机制显著降低长序列计算开销。昇腾在模型开源当日即完成 BF16 精度版本的部署,依托 CANN(Compute Architecture for Neural Networks)平台进行系统级优化。
整体部署采用 DeepSeek 推荐的“大 EP 并行”方案,并结合 DSA 结构特点,新增长序列亲和的 CP 并行策略,在保证高吞吐的同时控制首 token 延迟(TTFT)。实测表现如下:
- 128K 长序列输入下
- TTFT(Time to First Token)< 2 秒
- TPOT(Time Per Output Token)< 30 毫秒
这一性能水平为超长文本处理、代码生成、文档摘要等场景提供了强有力的底层支撑。
深度优化:两大新算子针对性实现
V3.2-Exp 引入了两个核心新算子:
- Lightning Indexer (LI):负责动态筛选关键上下文词元
- Sparse Flash Attention (SFA):执行稀疏化的注意力计算
针对这两个算子,昇腾团队进行了专项优化:
- 设计专用 Tiling 方案,提升内存访问效率;
- 优化 Cube 核与 Vector 核之间的流水线协作;
- 重构计算流程,减少冗余操作;
- 实现高性能融合 Kernel,均已开源至社区。
这些底层优化确保了稀疏注意力在 NPU 上的高效运行,避免因结构变化导致性能衰减。
编程提效:PyPTO 新框架简化开发流程
为提升融合算子的开发效率,昇腾 CANN 首次推出 PyPTO ——一种面向大融合算子的新型编程体系。
PyPTO 创新性地采用 PTO(Parallel Tensor / Tile Operation)编程范式,以 Tensor 为基本数据单元构建计算图,兼顾易用性与高性能。其优势包括:
- 支持动态 Shape 编程;
- 可快速实现复杂算子逻辑;
- 整网运行无缝集成。
目前,基于 PyPTO 已成功完成 DeepSeek Indexer Attention 和 Lightning Indexer 算子的开发,仅需几百行代码即可完成传统需要数千行手写 AscendC 的工作量,大幅降低开发门槛。
生态共建:全面拥抱开源,推动社区协同
昇腾不仅提供了官方参考实现,还同步完成了对 vLLM 和 SGLang 等主流推理框架的支持,功能完整,开箱可用。开发者可通过社区直接下载代码,体验以下能力:
- 融合算子加速
- 稀疏访存优化
- 多核并行计算
- 长上下文高效生成
此外,昇腾积极参与 Tile-AI 社区 的开源项目 TileLang ——一个面向 Tile 级别的类 Python DSL(领域专用语言),用于实现算子与硬件的高效协同。目前已完成 SFA 和 LI 算子在 TileLang 下的实现,未来将持续扩展 NPU 算子支持,提升泛化性与性能。
更重要的是,昇腾已将 AscendC 自研算子源码、PyTorch 算子实现 以及 TileLang-Ascend 适配模块 全面开源,真正实现“软硬协同 + 全栈开放”。















