阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比

大语言模型4个月前发布 小马良
448 0

在大模型进入“长上下文”与“超大规模参数”竞争的新阶段,如何平衡性能、训练成本与推理效率,成为决定落地能力的关键。

阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比

为此,阿里通义千问(Qwen)项目组正式推出 Qwen3-Next ——一个全新设计的高性能 MoE 架构模型系列,旨在通过系统性创新,在不牺牲质量的前提下,大幅降低训练与推理开销。

其核心成果是:

一个总参数达800亿、但每次仅激活30亿参数的模型(Qwen3-Next-80B-A3B),
在多项任务上接近甚至超越旗舰级稠密模型,
训练资源消耗仅为传统32B模型的9.3%
在32k以上上下文下的推理吞吐提升超10倍

这不仅是规模的跃升,更是一次对“性价比极限”的重新定义。

阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比

核心理念:Context Length Scaling 与 Total Parameter Scaling

Qwen 团队认为,未来大模型发展将围绕两大趋势展开:

🔹 Context Length Scaling:支持更长输入,满足复杂文档处理、代码理解等需求
🔹 Total Parameter Scaling:通过扩大总参数量增强知识容量与泛化能力

但传统架构在这两个方向上均面临瓶颈:

  • 标准注意力计算复杂度随长度平方增长
  • 稠密模型训练和推理成本过高
  • MoE 模型易出现负载不均、训练不稳定问题

Qwen3-Next 正是在此背景下诞生的技术突破。

四大核心技术改进

1. 混合注意力机制:Gated DeltaNet + Gated Attention

为兼顾长序列建模效率与语义召回能力,Qwen3-Next 采用混合架构:

层类型占比特点
Gated DeltaNet75%线性复杂度,高效处理长上下文
标准注意力(带门控)25%保留强关联建模能力

相比滑动窗口或 Mamba2,Gated DeltaNet 在上下文学习(in-context learning)任务中表现更优;而保留部分标准注意力层,则有效缓解了纯线性注意力在深层堆叠时的表达退化问题。

此外,还引入三项增强设计:

  • 输出门控机制:缓解注意力低秩问题
  • 注意力头维度从128扩展至256
  • 仅对前25%位置添加旋转编码,提升外推能力

实验表明,该混合结构在多种基准测试中优于单一架构。

2. 极致稀疏 MoE:800亿参数,仅激活30亿

Qwen3-Next 采用高稀疏度 MoE 架构:

  • 总参数:80B
  • 每步激活参数:约3B(激活率仅3.7%)
  • 专家总数:512个
  • 路由专家:10个 + 1个共享专家

相比 Qwen3 的128专家配置,此次大幅扩容专家池,并优化路由策略。研究发现:

在全局负载均衡机制下,持续增加专家总量可带来训练 loss 的稳定下降。

这意味着:即使单次激活参数很少,也能通过更大的“知识库”提升模型容量与泛化能力。

3. 训练稳定性优化:让高稀疏结构“稳得住”

高稀疏 MoE 和混合注意力容易引发训练波动。为此,团队做了多项关键改进:

✅ Zero-Centered RMSNorm:替代 QK-Norm,防止某些层 norm weight 异常飙升
✅ Norm Weight Decay:避免归一化权重无界增长
✅ MoE Router 参数初始化归一化:确保每个专家在初期被公平选择,减少启动偏差

这些看似细微的设计,显著提升了训练过程的鲁棒性,也为后续强化学习阶段打下基础。

4. 多 token 预测(MTP):加速推理,提升接受率

Qwen3-Next 原生集成 Multi-Token Prediction (MTP) 机制,支持 speculative decoding,实现更快解码速度。

关键优化包括:

  • 设计高接受率的 MTP 模块
  • 采用“训练-推理一致”的多步预测目标
  • 在实用场景中进一步提升 speculative decoding 的命中率

这使得模型在保持主干性能的同时,显著缩短生成延迟。

训练与推理效率:十倍级提升

训练效率

  • 使用数据:Qwen3 36T 语料的均匀子集(15T tokens)
  • 所需 GPU Hours:仅为 Qwen3-32B 的 9.3%
  • 性能表现:全面超越 Qwen3-32B-Base

这意味着:用十分之一的计算资源,训练出更强的 base 模型。

推理吞吐

得益于混合架构与 MTP,Qwen3-Next 在长上下文场景下优势尤为明显:

上下文长度Prefill 吞吐提升Decode 吞吐提升
4k~7x~4x
>32k>10x>10x

对于需要处理整本书、大型代码库或企业文档的应用来说,这是质的飞跃。

后训练模型表现:媲美旗舰,超越竞品

基于 Qwen3-Next-80B-A3B-Base,团队同步发布了两款后训练模型:

✅ Qwen3-Next-80B-A3B-Instruct

  • 性能接近 Qwen3-235B-A22B-Instruct-2507(旗舰模型)
  • 在 RULER 测试中,所有长度下均优于 Qwen3-30B-A3B-Instruct-2507
  • 在 256K 超长上下文任务中表现突出,展现混合架构的长文本优势

✅ Qwen3-Next-80B-A3B-Thinking

  • 在复杂推理任务上显著优于预训练成本更高的 Qwen3-30B-A3B-Thinking 和 Qwen3-32B-Thinking
  • 超过闭源模型 Gemini-2.5-Flash-Thinking
  • 部分指标已逼近 Qwen3-235B-A22B-Thinking-2507

说明该架构不仅适合通用指令跟随,也具备强大的深度推理潜力。

© 版权声明

相关文章

暂无评论

none
暂无评论...