谷歌Gemini深度研究智能体升级：Gemini 3 Pro加持，开放API赋能开发者

65 0

谷歌近日对Gemini Deep Research（深度研究智能体）完成重大升级，不仅将模型底座更换为更强大的Gemini 3 Pro，还首次开放交互API供开发者调用。此次升级重点解决了AI研究中的幻觉问题与长周期任务处理能力，同时同步开源了全新的研究智能体基准测试DeepSearchQA，标志着AI自主研究能力正式迈向工业化应用阶段。

谷歌Gemini深度研究智能体升级：Gemini 3 Pro加持，开放API赋能开发者

核心升级：Gemini 3 Pro打底，多步强化学习压控幻觉

此次升级最关键的变化，是将深度研究智能体的推理核心替换为谷歌迄今“最注重事实性”的Gemini 3 Pro模型。为了进一步提升研究任务的可靠性，团队专门采用扩展后的多步骤强化学习技术进行训练，使模型幻觉率较此前版本降低40%，大幅提升了复杂场景下的信息准确性。

针对长周期信息搜集与综合报告生成这一核心场景，升级后的智能体形成了一套完整的自主工作流：首先会根据需求拆解问题并制定详细调研计划，随后通过多轮次搜索、内容研读、知识缺口识别进行循环补全，最终输出包含目录、细粒度引用、数据表的结构化报告。值得一提的是，其搜索能力实现深度提升，能够深入网站层级挖掘特定数据，解决了以往浅层搜索难以获取精准信息的痛点。

评测亮眼：多项权威测试登顶，成本仅为竞品十分之一

性能表现上，新的Gemini深度研究智能体在多项权威基准测试中斩获SOTA（最先进）成绩。在被称为“人类终极考试”的Humanity‘s Last Exam（HLE）中，其得分达到46.4%，超过GPT-5 Pro的表现；在BrowseComp基准测试中以59.2%的成绩领跑，且这一表现是在成本仅为GPT-5 Pro十分之一的前提下实现的。

HLE作为由人工智能安全中心（CAIS）与Scale AI联合打造的高难度基准，题目由全球50个国家、500多个机构的近千名专家设计，涵盖多学科复杂推理任务，此前主流模型得分普遍未超过10%。Gemini深度研究智能体的46.4%得分，充分展现了其在跨学科推理与深度信息整合方面的突破。

配套发布：开源DeepSearchQA，填补多步研究评测空白

为解决现有基准测试难以捕捉现实世界多步骤网络研究复杂性的问题，谷歌同步开源了全新基准测试DeepSearchQA。该基准包含跨17个领域的900个人工精心设计的“因果链”任务，每个任务的完成都依赖于前序步骤的分析结果，区别于传统事实性测试，更侧重评估智能体研究的全面性与信息检索召回率。

DeepSearchQA还具备“思考时间”效益诊断功能，谷歌内部测试显示，当允许智能体执行更多搜索和推理步骤时，其性能会出现显著提升，这一发现也为后续模型优化指明了方向。目前开发者可直接访问该基准的数据集、排行榜及Colab入门工具，同时可查阅技术报告了解详细方法论。

落地场景：金融、生物等领域已显实效

从早期测试反馈来看，Gemini深度研究智能体已在对精度和上下文要求极高的多个领域展现出实用价值，成为行业研究的“力量倍增器”。

在金融领域，机构利用其自动化完成尽职调查的劳动密集型初始阶段，整合网络公开信息与专有数据源中的市场信号、竞争对手动态及合规风险信息，大幅缩短了前期调研周期。而在生物技术领域，专注于药物毒性预测AI系统研发的Axiom Bio公司，通过该智能体实现了生物医学文献的深度挖掘，获得了前所未有的研究粒度，有效加速了药物发现流程。此外，市场研究等领域的企业也借助其信息整合能力提升了决策的科学性。