谷歌发布 Gemini 2.5 Deep Think，多智能体推理时代的到来

早报8个月前发布小马良

293 0

谷歌 DeepMind 正式推出 Gemini 2.5 Deep Think——其迄今为止最先进的 AI 推理模型，标志着多智能体（multi-agent）架构在通用人工智能应用中的首次大规模落地。

与传统 AI 模型“线性思考”不同，Gemini 2.5 Deep Think 能够并行探索多种解题思路，通过多个虚拟智能体协作、辩论与验证，最终整合出更准确、更深入的答案。这一能力使其在数学、编程和复杂推理任务中表现突出，已在多项基准测试中超越 OpenAI、xAI 和 Anthropic 的同类模型。

谷歌发布 Gemini 2.5 Deep Think，多智能体推理时代的到来

从 2025 年 6 月起，Gemini Ultra 订阅用户（每月 250 美元）可在 Gemini 应用中直接使用该模型，用于解决需要创造力、战略规划和逐步推演的高难度问题。

多智能体系统：让 AI 学会“集体思考”

Gemini 2.5 Deep Think 的核心创新在于其多智能体推理框架。当面对一个复杂问题时，模型会自动生成多个 AI 智能体，每个智能体独立提出假设、展开推理或编写代码，彼此之间可进行交叉验证与修正。

谷歌发布 Gemini 2.5 Deep Think，多智能体推理时代的到来

这个过程类似于人类专家小组的协同工作：

一个智能体负责拆解问题结构；
另一个设计算法路径；
第三个评估逻辑一致性；
最终由主控机制整合最优方案。

尽管这一过程比单智能体模型消耗更多算力，但显著提升了输出质量。谷歌称，该模型已在内部测试中展现出接近人类专家团队的协作式推理能力。

💡 举例：在解答一道几何证明题时，不同智能体可能尝试代数法、向量法和反证法，最终选择最简洁严谨的证明路径。

实战表现：IMO 金牌背后的 AI 力量

Gemini 2.5 Deep Think 的技术原型曾参与 2025 年国际数学奥林匹克竞赛（IMO），并在模拟测试中达到金牌水平。谷歌表示，其使用的完整版模型需要“数小时”进行推理，远超常规 AI 的几秒响应时间，但换来了前所未有的准确性。

为支持学术研究，谷歌将向部分数学家和学者开放该 IMO 专用模型的访问权限，并收集反馈以优化多智能体系统在科研场景中的应用。

此外，在公开基准测试中，Gemini 2.5 Deep Think 也展现出领先优势：

测试项目	Gemini 2.5 Deep Think	对比模型
人类最后一考（HLE）（不使用工具）	34.8%	Grok 4: 25.4% OpenAI o3: 20.3%
LiveCodeBench6 （竞争性编程）	87.6%	Grok 4: 79% OpenAI o3: 72%

这些结果表明，它不仅擅长数学推理，也能高效应对真实世界的技术挑战。

深度集成工具链，生成更长、更完整的响应

Gemini 2.5 Deep Think 并非孤立运行。它能自动调用多种外部工具，包括：

代码执行引擎：实时运行并调试生成的代码；
谷歌搜索：获取最新事实与数据；
文档解析器：读取 PDF、网页等结构化内容。

这种深度集成使其能够生成比传统 AI 更长、更详尽的响应。谷歌测试显示，在网页开发任务中，该模型能输出完整的 HTML/CSS/JS 实现，并附带设计说明与优化建议，结果在视觉美观性和功能完整性上均优于其他模型。

谷歌发布 Gemini 2.5 Deep Think，多智能体推理时代的到来

性能提升背后的技术突破

谷歌透露，Gemini 2.5 Deep Think 相比今年 5 月 Google I/O 大会上首次亮相的版本已有显著改进，主要得益于两项关键技术：

新型强化学习训练机制：通过奖励机制引导智能体更有效地探索解空间，避免陷入无效路径，提升整体推理效率。
动态智能体调度算法：根据问题复杂度自动决定智能体数量与分工模式，平衡性能与资源消耗。

这些改进使得模型在保持高精度的同时，推理时间较早期版本缩短了约 40%。

行业趋势：多智能体系统正成为高端 AI 的标配

Gemini 2.5 Deep Think 的发布并非孤例。多家顶级 AI 实验室正在向多智能体架构靠拢：

xAI 推出 Grok 4 Heavy，采用类似并行推理机制，在多个基准上实现领先；
OpenAI 研究员 Noam Brown 在近期播客中确认，其 IMO 金牌模型也是多智能体系统；
Anthropic 的“研究智能体”功能同样基于多智能体协同，用于生成深度研究报告。

然而，这类系统运行成本高昂，通常需要数千 GPU 小时完成一次复杂推理。因此，科技公司普遍将其限制在高阶付费层级：

谷歌仅对 Gemini Ultra 用户开放；
xAI 将 Grok 4 Heavy 限定于 X Premium+ 订阅者；
OpenAI 和 Anthropic 尚未公开类似功能，但已在内部广泛使用。

未来计划：通过 API 开放给开发者

谷歌表示，计划在未来几周内，通过 Gemini API 向一组精选开发者和企业测试者提供 Gemini 2.5 Deep Think 的访问权限。

目标是：

探索多智能体系统在金融建模、药物发现、工程仿真等专业领域的应用；
收集真实场景下的反馈，优化推理效率与交互方式；
构建围绕“深度思考”能力的新型应用生态。

早报 # Gemini 2.5 Deep Think # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

本地化AI新尝试：Uptime Industries推出“AI-in-a-box”设备Lemony AI

本地化AI新尝试：Uptime Industries推出“AI-in-a-box”设备Lemony AI

早报 # Lemony AI # Uptime Industries

10个月前

02240

OpenAI o3模型基准测试结果引发争议，得分低于OpenAI最初暗示的水平

OpenAI o3模型基准测试结果引发争议，得分低于OpenAI最初暗示的水平

早报 # o3模型 # OpenAI # 基准测试

11个月前

02160

Meta 的Space Llama登上国际空间站，助力空间科学研究

Meta 的Space Llama登上国际空间站，助力空间科学研究

早报 # Meta # Space Llama # 国际空间站

11个月前

02080

NotebookLM 迎来视觉与协作升级：支持自定义封面图与“重新混合”公共笔记

NotebookLM 迎来视觉与协作升级：支持自定义封面图与“重新混合”公共笔记

早报 # NotebookLM # 谷歌

1个月前

0260

暂无评论

none

暂无评论...