继阿里开源超大参数模型 Qwen3.5-397B-A17B 后,今日再次重磅发布三款中等规模主力模型:Qwen3.5-35B-A3B、Qwen3.5-122B-A10B 以及 Qwen3.5-27B (Dense)。

对此,国产 GPU 领军企业 摩尔线程 (Moore Threads) 迅速响应,官方宣布其旗舰级 AI 训推一体全功能 GPU MTT S5000 已完成对上述三款新模型的全方位适配。这一动作不仅验证了摩尔线程硬件的强大算力,更彰显了其 MUSA 生态 在兼容性与开发效率上的显著进步。
核心突破:MUSA 生态两大能力验证
在本次适配过程中,摩尔线程重点展示了其赋能开发者的两大核心技术支柱,旨在大幅降低从 CUDA 生态迁移至国产平台的门槛:
1. 原生 MUSA C 支持
- 直接开发:允许开发者直接使用 MUSA C 语言进行底层内核(Kernel)开发。
- 降低门槛:语法与 CUDA C 高度相似,使得现有 CUDA 代码只需少量修改即可迁移,极大缩短了适配周期。
2. 深度兼容 Triton-MUSA
- 熟悉语法:开发者可继续使用业界流行的 Triton 语法编写高性能算子。
- 无缝运行:通过 Triton-MUSA 后端编译器,代码可直接在摩尔线程全功能 GPU 上高效执行,无需重写底层逻辑。
- 意义:这意味着庞大的 Triton 算子库资源可被 MUSA 生态快速复用,加速了主流大模型的落地速度。
底层优化:攻克混合注意力机制难题
Qwen3.5 系列模型(尤其是 MoE 架构版本)采用了先进的混合注意力机制,这对 GPU 的长序列处理能力和显存带宽提出了极高要求。
摩尔线程通过以下技术手段实现了原生优化:
- muDNN 计算库:利用自研的高性能深度神经网络计算库,针对混合注意力算子进行了深度调优。
- MATE 开源算子库:结合社区贡献与自研成果,为长序列上下文处理提供了高效支撑。
- 实测效果:成功在 MTT S5000 上实现了 Qwen3.5 系列模型的高性能推理,确保了低延迟与高吞吐,满足了生产环境需求。
适配模型概览
| 模型名称 | 类型 | 总参数 | 激活参数 | 特点 |
|---|---|---|---|---|
| Qwen3.5-35B-A3B | MoE | 350 亿 | 30 亿 | 性价比之王,推理成本极低 |
| Qwen3.5-122B-A10B | MoE | 1220 亿 | 100 亿 | 中型模型旗舰,性能逼近超大模型 |
| Qwen3.5-27B | Dense | 270 亿 | 270 亿 | 稠密模型,稳定性高,适合复杂任务 |
行业意义:国产软硬协同的新里程碑
此次摩尔线程与阿里通义千问的快速联动,具有深远的行业意义:
- 生态闭环加速:证明了国产 GPU 不仅能“跑起来”,还能“跑得好”、“跑得快”,能够及时跟进最新开源模型的步伐。
- 开发者友好:通过兼容 Triton 和类 CUDA 语法,解决了国产芯片长期以来的“软件生态荒”痛点,吸引更多开发者加入 MUSA 阵营。
- 自主可控:从底层算子库 (muDNN/MATE) 到上层大模型 (Qwen3.5),再到硬件载体 (MTT S5000),全链路实现了自主可控,为国内 AI 基础设施安全提供了坚实保障。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















