蚂蚁集团开源 Ring-flash-2.0：高效 MoE 架构下的高性能思考模型

290 0

蚂蚁集团正式宣布开源 Ring-flash-2.0 ——一款基于 MoE（混合专家）架构的高性能“思考型”大语言模型。该模型总参数量达 100B，但在每次推理时仅激活 6.1B 参数（其中非嵌入部分约 4.8B），通过高度稀疏化设计实现效率与能力的平衡。

更重要的是，团队自主研发的 IcePop 算法 成功解决了 MoE 模型在长链思维（Long-CoT）强化学习训练中的核心难题：训练与推理分布不一致导致的训练崩溃问题。

蚂蚁集团推出推理模型 Ring-mini-2.0

这一进展不仅提升了模型在数学、代码、逻辑等复杂任务上的表现，也为大规模 MoE 模型的稳定 RL 训练提供了可复用的技术路径。

Ring-flash-2.0 是在 Ling-flash-2.0-base 基础上深度优化的推理专用版本，属于“思考模型”（reasoning model）类别——即专为解决需要多步推导、严密逻辑的任务而设计。

它并非通用对话模型，而是面向：

尽管如此，令人意外的是，它在创意写作任务中也展现出接近其“非思考”兄弟模型 Ling-flash-2.0 的能力，表明其表达能力并未因强化推理而牺牲。

在多个具有挑战性的基准测试中，Ring-flash-2.0 表现出色，超越多数 40B 以下的密集模型，并与更大规模的开源 MoE 模型及部分闭源 API 相当。

类别	基准	Ring-flash-2.0 表现
数学竞赛	AIME 25, Omni-MATH	显著优于 Qwen3-32B-Thinking 和 Seed-OSS-36B-Instruct
代码生成	LiveCodeBench, CodeForce-Elo	接近 GPT-OSS-120B（中等）水平
逻辑推理	ARC-Prize	在复杂问答任务中领先同类开源模型
专业领域	GPQA-Diamond（科学）、HealthBench（医学）	展现出强竞争力，适合专业辅助应用
创意写作	Creative Writing v3	超越所有对比模型，匹配 Ling-flash-2.0 水平

对比模型包括：GPT-OSS-120B（中等）、Qwen3-32B-Thinking、Seed-OSS-36B-Instruct、Gemini-2.5-Flash。

这表明 Ring-flash-2.0 并未因专注推理而丧失通用性，反而实现了能力的协同提升。

Ring-flash-2.0 延续了 Ling 2.0 系列的高效 MoE 架构设计，关键指标如下：

得益于高稀疏性与底层优化，仅需 4 块 H20 GPU 即可部署，并实现 200+ tokens/sec 的生成速度。

这意味着：

MoE 模型在强化学习（RL）阶段面临一个独特挑战：

训练与推理之间的行为偏差会随序列增长不断累积，最终导致训练崩溃。

具体表现为：

这个问题在密集模型中尚可控，但在 MoE 中更为严重——因为不同专家在训练/推理中可能被不同调度，加剧分布偏移。

为此，蚂蚁团队提出 IcePop（Iterative Calibration via Masked Probabilistic Pop-correction）算法，核心思想是：

对训练过程中的 token 分布进行动态校准，缩小训练与推理的差距。

双向截断（Bidirectional Truncation）
- 不仅排除那些“训练概率远高于推理”的 token（防止过拟合训练信号）
- 还排除“训练概率远低于推理”的 token（防止忽略高频合理输出）
掩码梯度计算（Masked Gradient Update）
- 差异过大的 token 被从损失函数中剔除，不参与反向传播
- 保留稳定区域的学习信号，避免噪声干扰
迭代式分布对齐
- 在每个训练周期动态更新参考分布，逐步逼近推理状态

该方法有效延展了 MoE 模型在长序列、多步推理任务上的 RL 训练窗口，使复杂推理能力在整个训练过程中持续提升。

为了系统性提升模型能力，团队采用三阶段训练 pipeline：

阶段	方法	目标
1. 轻量级 Long-CoT SFT	使用多样化的思维链数据微调	赋予模型多种推理模式（如分步拆解、反证法等）
2. RLVR（Reinforcement Learning with Verifiable Rewards）	基于可验证信号（如执行结果、数学正确性）进行奖励建模	激发深层推理潜力，尤其适用于编程与数学任务
3. RLHF（Reinforcement Learning from Human Feedback）	引入人类偏好数据优化输出风格与通用性	提升回答质量、可读性和安全性