浪潮开源源 3.0 Ultra：1515B 参数巨无霸瘦身至 68B 激活，企业级 RAG 与表格理解全面超越 GPT-4o

99 0

“大模型的未来不在于无限堆砌参数，而在于如何让每一分算力都产生价值。”

浪潮旗下 YuanLab.ai 团队正式开源 源 3.0 Ultra (Yuan3.0 Ultra)。这是一款从零开始预训练的超大规模多模态模型，其初始参数量高达 1515B (1.5 万亿)，但通过创新的架构设计，最终激活参数量仅为 68.8B。

这不仅是一次参数的胜利，更是一场效率的革命。源 3.0 Ultra 在多模态 RAG、复杂表格理解、Text-to-SQL等企业核心场景中，多项基准测试成绩超越 GPT-4o、Claude Opus 4.6 及 Gemini 3.1 Pro，成为驱动下一代企业智能体的强力引擎。

源 3.0 Ultra 并未盲目追求推理时的庞大算力，而是通过两项颠覆性技术，实现了训练效率与推理质量的双重优化。

传统的混合专家 (MoE) 模型在训练后期常面临“专家负载不均”的难题：少数专家累死，多数专家闲置。

创新方案：YuanLab 提出了 LAEP 算法。在训练进入稳定阶段后，系统会根据每一层的 Token 分布，动态剪枝低负载专家，并通过贪心策略重排剩余专家，实现完美的负载均衡。
惊人效果：
- 总参数量从 1515B 缩减至 1010B (减少 33%)。
- 预训练效率提升 49%。
- 最终推理时，激活参数量仅需 68.8B，使得如此庞大的模型也能在相对合理的算力成本下部署。

在强化学习阶段，模型往往容易陷入“为了思考而思考”的陷阱，生成大量冗余步骤。

创新方案：基于 快速思考强化学习 (RAPO) 范式，引入 RIRM 机制。
- 答对了？ 反思步骤越少，奖励越高（鼓励直觉与高效）。
- 答错了？ 反思步骤越多，惩罚越重（避免无效试错）。
实测数据：
- 训练准确率提升 16.33%。
- 输出 Token 长度减少 14.38%。
- 真正实现了“该快则快，该慢则慢”的智能节奏。

源 3.0 Ultra 专为解决企业复杂任务而生，在五大核心基准测试中展现了统治级表现。

面对包含文本、表格、图像的复杂多页文档，源 3.0 Ultra 展现了惊人的信息提取与关联能力。

在涵盖长上下文、短对话及结构化检索的 10 项任务中，源 3.0 Ultra 在 9 项排名第一。

处理财务报告、审批表单等结构化数据是许多模型的弱项，但源 3.0 Ultra 对此游刃有余。

平均准确率：62.3%
对比：超越 Claude Opus 4.6 (39.8%) 和 Gemini 3.1 Pro (45.1%)，仅在个别单项上略逊于 Kimi K2.5，但综合均衡性更强。
能力：轻松应对跨行跨列计算、事实核查及长上下文表格推理。

作为 Agent 的历史记忆压缩模块，摘要的忠实度与简洁性至关重要。

工具调用 (BFCL V3)：平均分 67.8%，尤其在无关调用拒绝能力上高达 86.0%，有效防止 Agent 乱调 API。
Text-to-SQL：在 Spider 1.0 基准上取得 83.9% 的高分，超越 Qwen3.5 和 DeepSeek-V3.2，让自然语言查库更加精准可靠。

基准测试	任务类型	Yuan3.0 Ultra	GPT-4o	Claude Opus 4.6	Gemini 3.1 Pro	Kimi K2.5
DocMatix	多模态 RAG	67.4 🥇	56.8	46.2	35.3	36.9
ChatRAG	文本 RAG	68.2 🥇	50.5	52.9	49.7	53.6
MMTab	表格理解	62.3 🥈	-	39.8	45.1	66.2 🥇
SummEval	摘要生成	62.8 🥇	46.5	49.9	48.5	49.8
Spider 1.0	Text-to-SQL	83.9 🥇	-	-	-	82.7