摩尔线程光速适配阿里 Qwen3.5 中模系列：MTT S5000 实现混合注意力机制原生优化

29 0

继阿里开源超大参数模型 Qwen3.5-397B-A17B 后，今日再次重磅发布三款中等规模主力模型：Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 以及 Qwen3.5-27B (Dense)。

摩尔线程光速适配阿里 Qwen3.5 中模系列：MTT S5000 实现混合注意力机制原生优化

对此，国产 GPU 领军企业 摩尔线程 (Moore Threads) 迅速响应，官方宣布其旗舰级 AI 训推一体全功能 GPU MTT S5000 已完成对上述三款新模型的全方位适配。这一动作不仅验证了摩尔线程硬件的强大算力，更彰显了其 MUSA 生态 在兼容性与开发效率上的显著进步。

核心突破：MUSA 生态两大能力验证

在本次适配过程中，摩尔线程重点展示了其赋能开发者的两大核心技术支柱，旨在大幅降低从 CUDA 生态迁移至国产平台的门槛：

1. 原生 MUSA C 支持

直接开发：允许开发者直接使用 MUSA C 语言进行底层内核（Kernel）开发。
降低门槛：语法与 CUDA C 高度相似，使得现有 CUDA 代码只需少量修改即可迁移，极大缩短了适配周期。

2. 深度兼容 Triton-MUSA

熟悉语法：开发者可继续使用业界流行的 Triton 语法编写高性能算子。
无缝运行：通过 Triton-MUSA 后端编译器，代码可直接在摩尔线程全功能 GPU 上高效执行，无需重写底层逻辑。
意义：这意味着庞大的 Triton 算子库资源可被 MUSA 生态快速复用，加速了主流大模型的落地速度。

底层优化：攻克混合注意力机制难题

Qwen3.5 系列模型（尤其是 MoE 架构版本）采用了先进的混合注意力机制，这对 GPU 的长序列处理能力和显存带宽提出了极高要求。

摩尔线程通过以下技术手段实现了原生优化：

muDNN 计算库：利用自研的高性能深度神经网络计算库，针对混合注意力算子进行了深度调优。
MATE 开源算子库：结合社区贡献与自研成果，为长序列上下文处理提供了高效支撑。
实测效果：成功在 MTT S5000 上实现了 Qwen3.5 系列模型的高性能推理，确保了低延迟与高吞吐，满足了生产环境需求。

适配模型概览

模型名称	类型	总参数	激活参数	特点
Qwen3.5-35B-A3B	MoE	350 亿	30 亿	性价比之王，推理成本极低
Qwen3.5-122B-A10B	MoE	1220 亿	100 亿	中型模型旗舰，性能逼近超大模型
Qwen3.5-27B	Dense	270 亿	270 亿	稠密模型，稳定性高，适合复杂任务

行业意义：国产软硬协同的新里程碑

此次摩尔线程与阿里通义千问的快速联动，具有深远的行业意义：

生态闭环加速：证明了国产 GPU 不仅能“跑起来”，还能“跑得好”、“跑得快”，能够及时跟进最新开源模型的步伐。
开发者友好：通过兼容 Triton 和类 CUDA 语法，解决了国产芯片长期以来的“软件生态荒”痛点，吸引更多开发者加入 MUSA 阵营。
自主可控：从底层算子库 (muDNN/MATE) 到上层大模型 (Qwen3.5)，再到硬件载体 (MTT S5000)，全链路实现了自主可控，为国内 AI 基础设施安全提供了坚实保障。