谷歌 DeepMind 正式推出 Gemini 2.5 Deep Think——其迄今为止最先进的 AI 推理模型,标志着多智能体(multi-agent)架构在通用人工智能应用中的首次大规模落地。
与传统 AI 模型“线性思考”不同,Gemini 2.5 Deep Think 能够并行探索多种解题思路,通过多个虚拟智能体协作、辩论与验证,最终整合出更准确、更深入的答案。这一能力使其在数学、编程和复杂推理任务中表现突出,已在多项基准测试中超越 OpenAI、xAI 和 Anthropic 的同类模型。

从 2025 年 6 月起,Gemini Ultra 订阅用户(每月 250 美元)可在 Gemini 应用中直接使用该模型,用于解决需要创造力、战略规划和逐步推演的高难度问题。
多智能体系统:让 AI 学会“集体思考”
Gemini 2.5 Deep Think 的核心创新在于其多智能体推理框架。当面对一个复杂问题时,模型会自动生成多个 AI 智能体,每个智能体独立提出假设、展开推理或编写代码,彼此之间可进行交叉验证与修正。

这个过程类似于人类专家小组的协同工作:
- 一个智能体负责拆解问题结构;
- 另一个设计算法路径;
- 第三个评估逻辑一致性;
- 最终由主控机制整合最优方案。
尽管这一过程比单智能体模型消耗更多算力,但显著提升了输出质量。谷歌称,该模型已在内部测试中展现出接近人类专家团队的协作式推理能力。
💡 举例:在解答一道几何证明题时,不同智能体可能尝试代数法、向量法和反证法,最终选择最简洁严谨的证明路径。
实战表现:IMO 金牌背后的 AI 力量
Gemini 2.5 Deep Think 的技术原型曾参与 2025 年国际数学奥林匹克竞赛(IMO),并在模拟测试中达到金牌水平。谷歌表示,其使用的完整版模型需要“数小时”进行推理,远超常规 AI 的几秒响应时间,但换来了前所未有的准确性。
为支持学术研究,谷歌将向部分数学家和学者开放该 IMO 专用模型的访问权限,并收集反馈以优化多智能体系统在科研场景中的应用。
此外,在公开基准测试中,Gemini 2.5 Deep Think 也展现出领先优势:
| 测试项目 | Gemini 2.5 Deep Think | 对比模型 |
|---|---|---|
| 人类最后一考(HLE) (不使用工具) | 34.8% | Grok 4: 25.4% OpenAI o3: 20.3% |
| LiveCodeBench6 (竞争性编程) | 87.6% | Grok 4: 79% OpenAI o3: 72% |
这些结果表明,它不仅擅长数学推理,也能高效应对真实世界的技术挑战。
深度集成工具链,生成更长、更完整的响应
Gemini 2.5 Deep Think 并非孤立运行。它能自动调用多种外部工具,包括:
- 代码执行引擎:实时运行并调试生成的代码;
- 谷歌搜索:获取最新事实与数据;
- 文档解析器:读取 PDF、网页等结构化内容。
这种深度集成使其能够生成比传统 AI 更长、更详尽的响应。谷歌测试显示,在网页开发任务中,该模型能输出完整的 HTML/CSS/JS 实现,并附带设计说明与优化建议,结果在视觉美观性和功能完整性上均优于其他模型。

性能提升背后的技术突破
谷歌透露,Gemini 2.5 Deep Think 相比今年 5 月 Google I/O 大会上首次亮相的版本已有显著改进,主要得益于两项关键技术:
- 新型强化学习训练机制:通过奖励机制引导智能体更有效地探索解空间,避免陷入无效路径,提升整体推理效率。
- 动态智能体调度算法:根据问题复杂度自动决定智能体数量与分工模式,平衡性能与资源消耗。
这些改进使得模型在保持高精度的同时,推理时间较早期版本缩短了约 40%。
行业趋势:多智能体系统正成为高端 AI 的标配
Gemini 2.5 Deep Think 的发布并非孤例。多家顶级 AI 实验室正在向多智能体架构靠拢:
- xAI 推出 Grok 4 Heavy,采用类似并行推理机制,在多个基准上实现领先;
- OpenAI 研究员 Noam Brown 在近期播客中确认,其 IMO 金牌模型也是多智能体系统;
- Anthropic 的“研究智能体”功能同样基于多智能体协同,用于生成深度研究报告。
然而,这类系统运行成本高昂,通常需要数千 GPU 小时完成一次复杂推理。因此,科技公司普遍将其限制在高阶付费层级:
- 谷歌仅对 Gemini Ultra 用户开放;
- xAI 将 Grok 4 Heavy 限定于 X Premium+ 订阅者;
- OpenAI 和 Anthropic 尚未公开类似功能,但已在内部广泛使用。
未来计划:通过 API 开放给开发者
谷歌表示,计划在未来几周内,通过 Gemini API 向一组精选开发者和企业测试者提供 Gemini 2.5 Deep Think 的访问权限。
目标是:
- 探索多智能体系统在金融建模、药物发现、工程仿真等专业领域的应用;
- 收集真实场景下的反馈,优化推理效率与交互方式;
- 构建围绕“深度思考”能力的新型应用生态。















