华为昇腾0day适配 DeepSeek-V3.2-Exp 开源模型,实现稀疏Attention高效部署

早报2个月前发布 小马良
174 0

在 DeepSeek 发布并开源实验性大模型 DeepSeek-V3.2-Exp 后,华为昇腾团队迅速完成对该模型的全栈适配,实现发布即支持(0day support),并在 CANN 平台完成深度优化。此次合作标志着国产 AI 芯片与前沿大模型架构在高效推理领域的又一次紧密协同。

目前,昇腾已全面支持 vLLM、SGLang 等主流大模型推理框架对 V3.2-Exp 的部署,并将所有相关推理代码、融合算子实现及优化策略全部开源,面向全球开发者开放。

华为昇腾0day适配 DeepSeek-V3.2-Exp 开源模型,实现稀疏Attention高效部署

快速适配:从发布到部署仅一步之遥

DeepSeek-V3.2-Exp 最大的技术突破在于引入了 DeepSeek Sparse Attention (DSA) 架构,通过细粒度稀疏注意力机制显著降低长序列计算开销。昇腾在模型开源当日即完成 BF16 精度版本的部署,依托 CANN(Compute Architecture for Neural Networks)平台进行系统级优化。

整体部署采用 DeepSeek 推荐的“大 EP 并行”方案,并结合 DSA 结构特点,新增长序列亲和的 CP 并行策略,在保证高吞吐的同时控制首 token 延迟(TTFT)。实测表现如下:

  • 128K 长序列输入下
    • TTFT(Time to First Token)< 2 秒
    • TPOT(Time Per Output Token)< 30 毫秒

这一性能水平为超长文本处理、代码生成、文档摘要等场景提供了强有力的底层支撑。

深度优化:两大新算子针对性实现

V3.2-Exp 引入了两个核心新算子:

  1. Lightning Indexer (LI):负责动态筛选关键上下文词元
  2. Sparse Flash Attention (SFA):执行稀疏化的注意力计算

针对这两个算子,昇腾团队进行了专项优化:

  • 设计专用 Tiling 方案,提升内存访问效率;
  • 优化 Cube 核与 Vector 核之间的流水线协作;
  • 重构计算流程,减少冗余操作;
  • 实现高性能融合 Kernel,均已开源至社区。

这些底层优化确保了稀疏注意力在 NPU 上的高效运行,避免因结构变化导致性能衰减。

编程提效:PyPTO 新框架简化开发流程

为提升融合算子的开发效率,昇腾 CANN 首次推出 PyPTO ——一种面向大融合算子的新型编程体系。

PyPTO 创新性地采用 PTO(Parallel Tensor / Tile Operation)编程范式,以 Tensor 为基本数据单元构建计算图,兼顾易用性与高性能。其优势包括:

  • 支持动态 Shape 编程;
  • 可快速实现复杂算子逻辑;
  • 整网运行无缝集成。

目前,基于 PyPTO 已成功完成 DeepSeek Indexer Attention 和 Lightning Indexer 算子的开发,仅需几百行代码即可完成传统需要数千行手写 AscendC 的工作量,大幅降低开发门槛。

生态共建:全面拥抱开源,推动社区协同

昇腾不仅提供了官方参考实现,还同步完成了对 vLLM 和 SGLang 等主流推理框架的支持,功能完整,开箱可用。开发者可通过社区直接下载代码,体验以下能力:

  • 融合算子加速
  • 稀疏访存优化
  • 多核并行计算
  • 长上下文高效生成

此外,昇腾积极参与 Tile-AI 社区 的开源项目 TileLang ——一个面向 Tile 级别的类 Python DSL(领域专用语言),用于实现算子与硬件的高效协同。目前已完成 SFA 和 LI 算子在 TileLang 下的实现,未来将持续扩展 NPU 算子支持,提升泛化性与性能。

更重要的是,昇腾已将 AscendC 自研算子源码PyTorch 算子实现 以及 TileLang-Ascend 适配模块 全面开源,真正实现“软硬协同 + 全栈开放”。

© 版权声明

相关文章

暂无评论

none
暂无评论...