谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

多模态模型2个月前发布 小马良
90 0

谷歌发布一款名为 Gemini 2.5 Computer Use 的新型 AI 模型,能够通过浏览器窗口执行点击、滚动、输入文本等交互操作,帮助用户在那些没有开放 API 的网站上自动完成任务

谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

这项技术并非让 AI “像人一样思考”,而是通过视觉理解与推理能力,在标准网页界面中模拟真实用户的操作流程——例如填写表单、提交订单或浏览动态内容。

它能做什么?

Gemini 2.5 Computer Use 模型的核心能力是:

  • 分析自然语言指令(如“帮我查找最近一周的航班优惠”);
  • 理解当前网页的 UI 布局(按钮、输入框、链接等);
  • 执行具体操作:打开页面、输入文字、勾选选项、拖放元素、滚动到底部等;

它特别适用于以下场景:

  • 获取仅可通过手动浏览访问的数据(如爬取某些反爬较强的页面);
  • 自动化测试 Web 应用的用户界面行为;
  • 构建无需后端接口支持的轻量级自动化流程。

目前该模型支持 13 种基本操作,包括:

打开 URL、输入文本、点击元素、上传文件、拖放、滚动、等待加载完成等。

与 ChatGPT Agent 和 Claude 的“计算机使用”有何不同?

功能Gemini 2.5 Computer UseOpenAI ChatGPT AgentAnthropic Claude(Computer Use)
操作范围仅限浏览器内浏览器 + 桌面应用浏览器 + 桌面系统
是否调用本地程序是(如 Excel、终端)
技术基础视觉识别 + DOM 分析多模态代理框架屏幕截图 + OCR + 操作模拟

关键区别在于:Gemini 的当前版本仅作用于浏览器环境,不涉及操作系统级别的控制(如打开本地应用、读写文件)。Google 明确指出,该模型“尚未针对桌面级控制进行优化”。

这意味着它更安全、更容易部署,但也限制了其自动化广度。

面向开发者的接入方式

目前,Gemini 2.5 Computer Use 模型可通过两个主要渠道使用:

  1. Google AI Studio免费访问,适合原型验证和个人项目。
  2. Vertex AI面向企业用户,支持更高并发与定制化部署,可用于生产级自动化流程。

Google 表示,该模型“在多项网页和移动端基准测试中表现优于领先的替代方案”,但未公布具体评测数据。

背后的技术:不只是“看图说话”

该模型的能力建立在以下几个关键技术之上:

  • 多模态输入处理:结合视觉截图与可访问性标签(accessibility tree)、DOM 结构信息;
  • UI 元素识别:判断按钮、输入框等功能语义;
  • 动作规划:将用户请求分解为一系列可执行步骤;
  • 状态跟踪:记忆当前页面状态,避免重复操作。

这使得它能在缺乏结构化接口的情况下,依然有效与网页互动。

官方介绍全文:

介绍Gemini 2.5计算机应用模型

我们的计算机应用模型是通过API以预览版提供的专业模型,它基于Gemini 2.5 Pro的能力构建,旨在驱动能够与用户界面交互的智能体。

今年早些时候,我们曾提及将通过Gemini API为开发者带来计算机应用能力。今天,我们发布Gemini 2.5计算机应用模型,这是我们基于Gemini 2.5 Pro的视觉理解与推理能力构建的新专业模型,它能驱动可与用户界面交互的智能体。该模型在多项网页和移动控制基准测试中表现优于领先替代方案,且延迟更低。开发者可通过Google AI Studio和Vertex AI中的Gemini API访问这些功能。

虽然AI模型可以通过结构化API与软件交互,但许多数字任务仍然需要直接与图形用户界面互动,例如填写和提交表单。为了完成这些任务,智能体必须像人类一样浏览网页和应用程序:通过点击、输入和滚动。原生填写表单、操作下拉菜单和筛选器等交互元素,以及在登录后进行操作的能力,是构建强大的通用智能体的关键下一步。

工作原理

该模型的核心能力通过Gemini API中新的computer_use工具暴露,并应在循环中操作。该工具的输入包括用户请求、环境截图以及近期操作历史记录。输入还可以指定从支持的完整UI操作列表中排除某些功能,或指定要包含的其他自定义功能。

谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

随后,模型分析这些输入并生成响应,通常是一个代表某个UI操作(如点击或输入)的函数调用。此响应也可能包含请求最终用户确认的内容,这对于某些操作(如进行购买)是必需的。然后,客户端代码执行接收到的操作。

操作执行后,GUI的新截图和当前URL作为函数响应发送回计算机应用模型,重新开始循环。这个迭代过程持续进行,直到任务完成、发生错误、或因安全响应或用户决定而终止交互。

Gemini 2.5计算机应用模型主要针对网页浏览器进行了优化,但在移动UI控制任务上也展现出强大潜力。它尚未针对桌面操作系统级别的控制进行优化。

查看下面的几个演示,了解模型的实际运行情况(此处以3倍速播放)。

提示: "从 https://tinyurl.com/pet-care-signup 获取所有具有加州居民身份的宠物的详细信息,并将它们作为客人添加到我的水疗中心CRM https://pet-luxe-spa.web.app/ 中。然后,与专家Anima Lavar预约10月10日上午8点后的随访。访问原因与其请求的治疗相同。"

提示: "我的艺术俱乐部为即将举办的展会进行了任务头脑风暴。看板很混乱,我需要你帮忙将任务整理到我创建的一些类别中。前往 sticky-note-jam.web.app 并确保便签清晰地归入正确的区域。如有需要,请将它们拖拽到位。"

性能表现

Gemini 2.5计算机应用模型在多项网页和移动控制基准测试中展现出强劲性能。下表包含自行报告的数字、Browserbase运行的评估以及我们自行运行的评估结果。评估详情可在Gemini 2.5计算机应用评估信息Browserbase的博客文章中查看。除非另有说明,所示分数为通过API暴露的计算机应用工具得分。

谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

该模型在Browserbase针对Online-Mind2Web的测试中,以最低的延迟提供了领先的浏览器控制质量。

谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务

我们的安全措施

我们相信,构建惠及所有人的智能体的唯一途径是从一开始就负责任地行事。控制计算机的AI智能体带来了独特的风险,包括用户的故意滥用、意外的模型行为以及网络环境中的提示注入和诈骗。因此,谨慎实施安全防护措施至关重要。

我们已将安全功能直接内置于模型中,以应对这三个关键风险(详见Gemini 2.5计算机应用系统卡片)。

此外,我们还为开发者提供了安全控制措施,使开发者能够防止模型自动完成潜在高风险或有害的操作。这类操作的示例包括损害系统完整性、破坏安全性、绕过CAPTCHA验证或控制医疗设备。这些控制措施包括:

  • 逐步安全服务: 一个模型外、推理时的安全服务,在模型提议的每个操作执行前对其进行评估。
  • 系统指令: 开发者可以进一步指定,智能体在执行特定类型的高风险操作之前,要么拒绝执行,要么请求用户确认。(示例见文档)。

关于安全措施和最佳实践的其他建议,请参阅我们的文档。虽然这些保障措施旨在降低风险,但我们敦促所有开发者在发布前彻底测试其系统。

早期测试者的应用场景

Google团队已将该模型部署到生产环境,用于包括UI测试在内的用例,这可以显著加快软件开发速度。该模型的版本也为Project MarinerFirebase测试智能体以及搜索中的AI Mode的某些智能体功能提供了支持。

来自我们早期访问计划的用户也一直在测试该模型,以驱动个人助手、工作流自动化和UI测试,并取得了强劲的成果。以下是他们的原话:

"我们的许多工作流需要与为人设计的界面交互,其中速度尤为重要。Gemini 2.5计算机应用远远领先于竞争对手,通常比我们考虑过的次优方案快50%,表现也更出色。" — Poke.com,一个在iMessage、WhatsApp和SMS中具有多个第三方和智能体工作流的主动式AI助手。

"我们的智能体完全自主运行,执行的工作要求在收集和解析数据时不容出现细微错误。Gemini 2.5计算机应用在可靠解析复杂情况下的上下文方面优于其他模型,在我们最难的评估中性能提升了高达18%。" — Autotab,一个即插即用的AI智能体。

"当传统脚本遇到故障时,该模型会评估当前屏幕状态,并自主确定完成工作流所需的操作。这一实施方案现已成功修复超过60%的执行失败(过去通常需要多天才能修复)。" — Google的支付平台团队,该团队将计算机应用模型作为应急机制实施,以解决导致25%所有测试失败的脆弱的端到端UI测试。

如何开始使用

从今天开始,该模型以公开预览版提供,可通过Google AI Studio和Vertex AI上的Gemini API访问。

  • 立即试用: 在Browserbase托管的演示环境中体验。
  • 开始构建: 深入阅读我们的参考文档(企业使用请参阅Vertex AI文档),了解如何在本地使用Playwright或在云虚拟机中使用Browserbase构建您自己的智能体循环。
  • 加入社区: 我们期待看到您的构建成果。在我们的开发者论坛中分享反馈,帮助指导我们的路线图。
谷歌推出新型 AI 模型Gemini 2.5 Computer Use,可操作浏览器完成网页任务
© 版权声明

相关文章

暂无评论

none
暂无评论...