华为昇腾0day适配 DeepSeek-V3.2-Exp 开源模型，实现稀疏Attention高效部署

241 0

在 DeepSeek 发布并开源实验性大模型 DeepSeek-V3.2-Exp 后，华为昇腾团队迅速完成对该模型的全栈适配，实现发布即支持（0day support），并在 CANN 平台完成深度优化。此次合作标志着国产 AI 芯片与前沿大模型架构在高效推理领域的又一次紧密协同。

NPU DeepSeek-V3.2-Exp 推理优化实践：https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_inference_guide.md
NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化：https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_ascendc_operator_guide.md
基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践：https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_pypto_operator_guide.md
大模型推理框架 vLLM 及昇腾实现：
https://github.com/vllm-project/vllm-ascend/tree/v0.9.1-dev/examples/deepseek.md
大模型推理框架 SGLang 及昇腾实现：
https://github.com/sgl-project/sglang/issues/11060
NPU DeepSeek-V3.2-Exp TileLang 算子开发实践：
https://gitcode.com/cann/cann-recipes-infer/blob/master/docs/models/deepseek-v3.2-exp/deepseek_v3.2_exp_tilelang_operator_guide.md
TileLang-Ascend 开源社区：
https://github.com/tile-ai/tilelang-ascend

目前，昇腾已全面支持 vLLM、SGLang 等主流大模型推理框架对 V3.2-Exp 的部署，并将所有相关推理代码、融合算子实现及优化策略全部开源，面向全球开发者开放。

华为昇腾0day适配 DeepSeek-V3.2-Exp 开源模型，实现稀疏Attention高效部署

快速适配：从发布到部署仅一步之遥

DeepSeek-V3.2-Exp 最大的技术突破在于引入了 DeepSeek Sparse Attention (DSA) 架构，通过细粒度稀疏注意力机制显著降低长序列计算开销。昇腾在模型开源当日即完成 BF16 精度版本的部署，依托 CANN（Compute Architecture for Neural Networks）平台进行系统级优化。

整体部署采用 DeepSeek 推荐的“大 EP 并行”方案，并结合 DSA 结构特点，新增长序列亲和的 CP 并行策略，在保证高吞吐的同时控制首 token 延迟（TTFT）。实测表现如下：

128K 长序列输入下
- TTFT（Time to First Token）＜ 2 秒
- TPOT（Time Per Output Token）＜ 30 毫秒

这一性能水平为超长文本处理、代码生成、文档摘要等场景提供了强有力的底层支撑。

深度优化：两大新算子针对性实现

V3.2-Exp 引入了两个核心新算子：

Lightning Indexer (LI)：负责动态筛选关键上下文词元
Sparse Flash Attention (SFA)：执行稀疏化的注意力计算

针对这两个算子，昇腾团队进行了专项优化：

设计专用 Tiling 方案，提升内存访问效率；
优化 Cube 核与 Vector 核之间的流水线协作；
重构计算流程，减少冗余操作；
实现高性能融合 Kernel，均已开源至社区。

这些底层优化确保了稀疏注意力在 NPU 上的高效运行，避免因结构变化导致性能衰减。

编程提效：PyPTO 新框架简化开发流程

为提升融合算子的开发效率，昇腾 CANN 首次推出 PyPTO ——一种面向大融合算子的新型编程体系。

PyPTO 创新性地采用 PTO（Parallel Tensor / Tile Operation）编程范式，以 Tensor 为基本数据单元构建计算图，兼顾易用性与高性能。其优势包括：

支持动态 Shape 编程；
可快速实现复杂算子逻辑；
整网运行无缝集成。

目前，基于 PyPTO 已成功完成 DeepSeek Indexer Attention 和 Lightning Indexer 算子的开发，仅需几百行代码即可完成传统需要数千行手写 AscendC 的工作量，大幅降低开发门槛。

生态共建：全面拥抱开源，推动社区协同

昇腾不仅提供了官方参考实现，还同步完成了对 vLLM 和 SGLang 等主流推理框架的支持，功能完整，开箱可用。开发者可通过社区直接下载代码，体验以下能力：

融合算子加速
稀疏访存优化
多核并行计算
长上下文高效生成

此外，昇腾积极参与 Tile-AI 社区 的开源项目 TileLang ——一个面向 Tile 级别的类 Python DSL（领域专用语言），用于实现算子与硬件的高效协同。目前已完成 SFA 和 LI 算子在 TileLang 下的实现，未来将持续扩展 NPU 算子支持，提升泛化性与性能。

更重要的是，昇腾已将 AscendC 自研算子源码、PyTorch 算子实现 以及 TileLang-Ascend 适配模块 全面开源，真正实现“软硬协同 + 全栈开放”。