蚂蚁集团推出推理模型 Ring-mini-2.0

大语言模型3个月前发布 小马良
97 0

蚂蚁集团推出了一款紧凑而强大的推理模型Ring-mini-2.0。该模型总参数量为 16B,但每个输入 token 仅激活 14 亿个参数(非嵌入参数部分为 7.89 亿)。尽管 Ring-mini-2.0 相当紧凑,但通过在 20T token 的高质量数据上进行预训练,并经过长思维链监督微调与多阶段强化学习增强,其性能达到了 10B 以下稠密 LLM 的顶级水平,甚至匹配或超越了参数量大得多的混合专家模型 (MoE)。

模型总参数激活参数上下文长度下载
Ring-mini-2.016.8B1.4B128KHuggingFace
Ring-lite-250716.8B2.75B128KHuggingFace

评估

为全面评估我们推理模型的质量,我们实施了自动化基准测试来衡量其在数学、代码和科学领域的表现。结果表明,Ring-mini-2.0 仅激活一半参数的情况下,实现了与 Ring-lite-2507 相当的性能。

蚂蚁集团推出推理模型 Ring-mini-2.0
© 版权声明

相关文章

暂无评论

none
暂无评论...