蚂蚁集团发布 Ling 2.0:基于“推理优先”原则的稀疏大模型家族

蚂蚁集团 百灵大模型团队近日发布 Ling 2.0 —— 一个系统性构建的 稀疏混合专家(MoE)语言模型系列,核心理念是:模型容量可无限扩展,但每个 token 的计算成本应保持恒定。该系列通过统一的“1/32 激活率”架构,在总参数从 160 亿(16B)到 1 万亿(1T)的跨度内,实现了推理效率、质量与可扩展性的高度平衡。

蚂蚁集团发布 Ling 2.0:基于“推理优先”原则的稀疏大模型家族

关键亮点

  1. 统一 1/32 激活 MoE 架构,从 16B 到 1T 无缝扩展;
  2. Ling 缩放定律 实现超参自动设计,避免试错成本;
  3. 推理优先训练:早期注入代码/数学,全程强化思维链;
  4. 全栈 FP8 优化,在现有集群上实现 1T 模型实用化;
  5. 效率提升 7 倍,质量随规模可预测增长。
核心设计:稀疏 MoE 与 Ling 缩放定律

Ling 2.0 系列所有模型共享同一架构原则:

  • 每层包含 256 个路由专家 + 1 个共享专家
  • 路由器为每个 token 动态选择 8 个路由专家,共享专家始终激活;
  • 总激活专家数 ≈ 9 / 257 ≈ 3.5%,即 1/32 激活率
  • 相比同等性能的稠密模型,训练与推理效率提升约 7 倍

为避免“试错式”超参调优,团队提出 Ling 缩放定律(Ling Scaling Law):

  • 通过“Ling 风洞”(小型 MoE 实验集群)在固定数据与路由规则下训练;
  • 拟合损失、激活率、专家负载的幂律关系;
  • 以低成本预测万亿级模型的最佳配置,确保从 mini 到 1T 的一致性

三层模型矩阵:小而快,大而强

模型总参数激活参数/token定位
Ling mini 2.016B1.4B轻量级推理,H20 上超 300 token/s
Ling flash 2.0~100B6.1B中等容量,平衡性能与成本
Ling 1T1T~50B旗舰模型,支持 128K 上下文与复杂推理

所有版本均保持 1/32 激活率,质量随容量可预测提升,无需重新设计架构。

全栈协同优化:从架构到基础设施

1. 模型架构

  • 使用 QK Norm、MTP 损失、部分 RoPE 保证深层稳定性;
  • 无辅助损失路由,采用 Sigmoid 评分,简化训练流程。

2. 预训练策略

  • 20T+ token 训练数据,早期即注入数学、代码等推理密集型内容(占比近 50%);
  • 中期在 150B token 切片上扩展至 32K 上下文
  • 后期注入 600B 高质量思维链(Chain-of-Thought)数据;
  • 最终通过 YaRN 实现 128K 长上下文,同时保留短上下文性能。

3. 后训练对齐

  • 能力通道:通过系统提示,让模型在“快速响应”与“深度推理”间切换;
  • 进化思维链(Evo CoT):扩展与多样化推理路径;
  • 句子级策略优化(LPO):基于组竞技场奖励,细粒度对齐人类偏好。

4. FP8 基础设施

  • 原生 FP8 训练,损失曲线与 BF16 基线差距极小;
  • 异构流水线并行 + 交错前向/后向 + MTP 块感知分区,带来 ~40% 加速
  • Warmup Stable Merge 技术替代传统 LR 衰减,提升训练稳定性。

性能与效率:稀疏即优势

  • Ling mini 2.0(16B/1.4B)性能对标 7–8B 稠密模型,但推理速度更快;
  • Ling flash 2.0 在保持低激活成本下,提供更高知识容量;
  • Ling 1T 在数学、代码、长上下文任务中展现 SOTA 水平,同时每个 token 计算量可控

稀疏设计的核心价值:用“大容量”换取“高上限”,用“小激活”守住“低延迟”

© 版权声明

相关文章

暂无评论

none
暂无评论...