浪潮开源源 3.0 Ultra:1515B 参数巨无霸瘦身至 68B 激活,企业级 RAG 与表格理解全面超越 GPT-4o

“大模型的未来不在于无限堆砌参数,而在于如何让每一分算力都产生价值。”

浪潮旗下 YuanLab.ai 团队正式开源 源 3.0 Ultra (Yuan3.0 Ultra)。这是一款从零开始预训练的超大规模多模态模型,其初始参数量高达 1515B (1.5 万亿),但通过创新的架构设计,最终激活参数量仅为 68.8B

  • 官网:https://yuanlab.ai
  • GitHub:https://github.com/Yuan-lab-LLM/Yuan3.0
  • Hugging Face:https://huggingface.co/YuanLabAI/Yuan3.0-Ultra
  • 魔搭:https://www.modelscope.cn/models/YuanLabAI/Yuan3.0-Ultra

这不仅是一次参数的胜利,更是一场效率的革命。源 3.0 Ultra 在多模态 RAG、复杂表格理解、Text-to-SQL等企业核心场景中,多项基准测试成绩超越 GPT-4o、Claude Opus 4.6 及 Gemini 3.1 Pro,成为驱动下一代企业智能体的强力引擎。

浪潮开源源 3.0 Ultra:1515B 参数巨无霸瘦身至 68B 激活,企业级 RAG 与表格理解全面超越 GPT-4o

核心技术突破:大模型的“瘦身”与“深思”

源 3.0 Ultra 并未盲目追求推理时的庞大算力,而是通过两项颠覆性技术,实现了训练效率与推理质量的双重优化。

1. 逐层自适应专家剪枝 (LAEP):让训练效率提升 49%

传统的混合专家 (MoE) 模型在训练后期常面临“专家负载不均”的难题:少数专家累死,多数专家闲置。

  • 创新方案:YuanLab 提出了 LAEP 算法。在训练进入稳定阶段后,系统会根据每一层的 Token 分布,动态剪枝低负载专家,并通过贪心策略重排剩余专家,实现完美的负载均衡。
  • 惊人效果
    • 总参数量从 1515B 缩减至 1010B (减少 33%)。
    • 预训练效率提升 49%
    • 最终推理时,激活参数量仅需 68.8B,使得如此庞大的模型也能在相对合理的算力成本下部署。

2. 反思抑制奖励机制 (RIRM):拒绝无效“过度思考”

在强化学习阶段,模型往往容易陷入“为了思考而思考”的陷阱,生成大量冗余步骤。

  • 创新方案:基于 快速思考强化学习 (RAPO) 范式,引入 RIRM 机制
    • 答对了? 反思步骤越少,奖励越高(鼓励直觉与高效)。
    • 答错了? 反思步骤越多,惩罚越重(避免无效试错)。
  • 实测数据
    • 训练准确率提升 16.33%
    • 输出 Token 长度减少 14.38%
    • 真正实现了“该快则快,该慢则慢”的智能节奏。

🏆 企业级场景:全面领跑的硬实力

源 3.0 Ultra 专为解决企业复杂任务而生,在五大核心基准测试中展现了统治级表现。

1. 多模态 RAG:文档理解的绝对王者 (DocMatix 🏆)

面对包含文本、表格、图像的复杂多页文档,源 3.0 Ultra 展现了惊人的信息提取与关联能力。

  • 得分67.4%
  • 对比:远超 GPT-4o (56.8%)、Claude Opus 4.6 (46.2%) 及 o3 (45.6%)。
  • 意义:无论是财报分析还是技术手册检索,它都能精准定位关键信息,是企业知识库的完美大脑。

2. 文本 RAG:长短期记忆的全能选手 (ChatRAG 🏆)

在涵盖长上下文、短对话及结构化检索的 10 项任务中,源 3.0 Ultra 在 9 项排名第一

  • 平均准确率68.2% (领先第二名 Kimi K2.5 近 15 个百分点)。
  • 亮点:在 CoQA (94.6%) 和 SQA (91.0%) 等高难度对话与结构化检索任务中表现近乎完美。

3. 复杂表格理解:数据分析的行家 (MMTab)

处理财务报告、审批表单等结构化数据是许多模型的弱项,但源 3.0 Ultra 对此游刃有余。

  • 平均准确率62.3%
  • 对比:超越 Claude Opus 4.6 (39.8%) 和 Gemini 3.1 Pro (45.1%),仅在个别单项上略逊于 Kimi K2.5,但综合均衡性更强。
  • 能力:轻松应对跨行跨列计算、事实核查及长上下文表格推理。

4. 高质量摘要生成:信息压缩的艺术 (SummEval 🏆)

作为 Agent 的历史记忆压缩模块,摘要的忠实度与简洁性至关重要。

  • 平均准确率62.8%
  • 优势:在 ROUGE-1 (59.1) 和 BERTScore (91.1) 上大幅领先,确保信息不丢失、语义不扭曲。

5. 工具调用与 Text-to-SQL:智能体的手脚

  • 工具调用 (BFCL V3):平均分 67.8%,尤其在无关调用拒绝能力上高达 86.0%,有效防止 Agent 乱调 API。
  • Text-to-SQL:在 Spider 1.0 基准上取得 83.9% 的高分,超越 Qwen3.5 和 DeepSeek-V3.2,让自然语言查库更加精准可靠。

📊 性能对比一览

基准测试任务类型Yuan3.0 UltraGPT-4oClaude Opus 4.6Gemini 3.1 ProKimi K2.5
DocMatix多模态 RAG67.4 🥇56.846.235.336.9
ChatRAG文本 RAG68.2 🥇50.552.949.753.6
MMTab表格理解62.3 🥈-39.845.166.2 🥇
SummEval摘要生成62.8 🥇46.549.948.549.8
Spider 1.0Text-to-SQL83.9 🥇---82.7

(注:部分模型未公开所有基准数据,“-”表示暂无公开数据)

浪潮开源源 3.0 Ultra:1515B 参数巨无霸瘦身至 68B 激活,企业级 RAG 与表格理解全面超越 GPT-4o

💾 模型下载与部署

源 3.0 Ultra 现已完全开源,支持多种精度格式,方便不同算力需求的用户部署。

模型版本总参数量精度上下文长度下载平台
Yuan3.0 Ultra1.01T16bit64KModelScope / HuggingFace / WiseModel
Yuan3.0 Ultra Int41.01T4bit64KModelScope / HuggingFace / WiseModel
  • 架构特点:103 层 Transformer,集成 SigLIP 类视觉编码器,支持原生多模态输入。
  • 适用场景:企业私有知识库、复杂数据分析 Agent、自动化办公流、科研文献解读。
© 版权声明

相关文章

暂无评论

none
暂无评论...