谷歌推出新型 AI 模型Gemini 2.5 Computer Use，可操作浏览器完成网页任务

多模态模型6个月前发布小马良

231 0

谷歌发布一款名为 Gemini 2.5 Computer Use 的新型 AI 模型，能够通过浏览器窗口执行点击、滚动、输入文本等交互操作，帮助用户在那些没有开放 API 的网站上自动完成任务。

谷歌推出新型 AI 模型Gemini 2.5 Computer Use，可操作浏览器完成网页任务

这项技术并非让 AI “像人一样思考”，而是通过视觉理解与推理能力，在标准网页界面中模拟真实用户的操作流程——例如填写表单、提交订单或浏览动态内容。

它能做什么？

Gemini 2.5 Computer Use 模型的核心能力是：

分析自然语言指令（如“帮我查找最近一周的航班优惠”）；
理解当前网页的 UI 布局（按钮、输入框、链接等）；
执行具体操作：打开页面、输入文字、勾选选项、拖放元素、滚动到底部等；

它特别适用于以下场景：

获取仅可通过手动浏览访问的数据（如爬取某些反爬较强的页面）；
自动化测试 Web 应用的用户界面行为；
构建无需后端接口支持的轻量级自动化流程。

目前该模型支持 13 种基本操作，包括：

打开 URL、输入文本、点击元素、上传文件、拖放、滚动、等待加载完成等。

与 ChatGPT Agent 和 Claude 的“计算机使用”有何不同？

功能	Gemini 2.5 Computer Use	OpenAI ChatGPT Agent	Anthropic Claude（Computer Use）
操作范围	仅限浏览器内	浏览器 + 桌面应用	浏览器 + 桌面系统
是否调用本地程序	否	是（如 Excel、终端）	是
技术基础	视觉识别 + DOM 分析	多模态代理框架	屏幕截图 + OCR + 操作模拟

关键区别在于：Gemini 的当前版本仅作用于浏览器环境，不涉及操作系统级别的控制（如打开本地应用、读写文件）。Google 明确指出，该模型“尚未针对桌面级控制进行优化”。

这意味着它更安全、更容易部署，但也限制了其自动化广度。

面向开发者的接入方式

目前，Gemini 2.5 Computer Use 模型可通过两个主要渠道使用：

Google AI Studio：免费访问，适合原型验证和个人项目。
Vertex AI：面向企业用户，支持更高并发与定制化部署，可用于生产级自动化流程。

Google 表示，该模型“在多项网页和移动端基准测试中表现优于领先的替代方案”，但未公布具体评测数据。

背后的技术：不只是“看图说话”

该模型的能力建立在以下几个关键技术之上：

多模态输入处理：结合视觉截图与可访问性标签（accessibility tree）、DOM 结构信息；
UI 元素识别：判断按钮、输入框等功能语义；
动作规划：将用户请求分解为一系列可执行步骤；
状态跟踪：记忆当前页面状态，避免重复操作。

这使得它能在缺乏结构化接口的情况下，依然有效与网页互动。

官方介绍全文：

介绍Gemini 2.5计算机应用模型

我们的计算机应用模型是通过API以预览版提供的专业模型，它基于Gemini 2.5 Pro的能力构建，旨在驱动能够与用户界面交互的智能体。

今年早些时候，我们曾提及将通过Gemini API为开发者带来计算机应用能力。今天，我们发布Gemini 2.5计算机应用模型，这是我们基于Gemini 2.5 Pro的视觉理解与推理能力构建的新专业模型，它能驱动可与用户界面交互的智能体。该模型在多项网页和移动控制基准测试中表现优于领先替代方案，且延迟更低。开发者可通过Google AI Studio和Vertex AI中的Gemini API访问这些功能。

虽然AI模型可以通过结构化API与软件交互，但许多数字任务仍然需要直接与图形用户界面互动，例如填写和提交表单。为了完成这些任务，智能体必须像人类一样浏览网页和应用程序：通过点击、输入和滚动。原生填写表单、操作下拉菜单和筛选器等交互元素，以及在登录后进行操作的能力，是构建强大的通用智能体的关键下一步。

工作原理

该模型的核心能力通过Gemini API中新的computer_use工具暴露，并应在循环中操作。该工具的输入包括用户请求、环境截图以及近期操作历史记录。输入还可以指定从支持的完整UI操作列表中排除某些功能，或指定要包含的其他自定义功能。

随后，模型分析这些输入并生成响应，通常是一个代表某个UI操作（如点击或输入）的函数调用。此响应也可能包含请求最终用户确认的内容，这对于某些操作（如进行购买）是必需的。然后，客户端代码执行接收到的操作。

操作执行后，GUI的新截图和当前URL作为函数响应发送回计算机应用模型，重新开始循环。这个迭代过程持续进行，直到任务完成、发生错误、或因安全响应或用户决定而终止交互。

Gemini 2.5计算机应用模型主要针对网页浏览器进行了优化，但在移动UI控制任务上也展现出强大潜力。它尚未针对桌面操作系统级别的控制进行优化。

查看下面的几个演示，了解模型的实际运行情况（此处以3倍速播放）。

提示： "从 https://tinyurl.com/pet-care-signup 获取所有具有加州居民身份的宠物的详细信息，并将它们作为客人添加到我的水疗中心CRM https://pet-luxe-spa.web.app/ 中。然后，与专家Anima Lavar预约10月10日上午8点后的随访。访问原因与其请求的治疗相同。"

提示： "我的艺术俱乐部为即将举办的展会进行了任务头脑风暴。看板很混乱，我需要你帮忙将任务整理到我创建的一些类别中。前往 sticky-note-jam.web.app 并确保便签清晰地归入正确的区域。如有需要，请将它们拖拽到位。"

性能表现

Gemini 2.5计算机应用模型在多项网页和移动控制基准测试中展现出强劲性能。下表包含自行报告的数字、Browserbase运行的评估以及我们自行运行的评估结果。评估详情可在Gemini 2.5计算机应用评估信息和Browserbase的博客文章中查看。除非另有说明，所示分数为通过API暴露的计算机应用工具得分。

该模型在Browserbase针对Online-Mind2Web的测试中，以最低的延迟提供了领先的浏览器控制质量。

我们的安全措施

我们相信，构建惠及所有人的智能体的唯一途径是从一开始就负责任地行事。控制计算机的AI智能体带来了独特的风险，包括用户的故意滥用、意外的模型行为以及网络环境中的提示注入和诈骗。因此，谨慎实施安全防护措施至关重要。

我们已将安全功能直接内置于模型中，以应对这三个关键风险（详见Gemini 2.5计算机应用系统卡片）。

此外，我们还为开发者提供了安全控制措施，使开发者能够防止模型自动完成潜在高风险或有害的操作。这类操作的示例包括损害系统完整性、破坏安全性、绕过CAPTCHA验证或控制医疗设备。这些控制措施包括：

逐步安全服务： 一个模型外、推理时的安全服务，在模型提议的每个操作执行前对其进行评估。
系统指令： 开发者可以进一步指定，智能体在执行特定类型的高风险操作之前，要么拒绝执行，要么请求用户确认。（示例见文档）。

关于安全措施和最佳实践的其他建议，请参阅我们的文档。虽然这些保障措施旨在降低风险，但我们敦促所有开发者在发布前彻底测试其系统。

早期测试者的应用场景

Google团队已将该模型部署到生产环境，用于包括UI测试在内的用例，这可以显著加快软件开发速度。该模型的版本也为Project Mariner、Firebase测试智能体以及搜索中的AI Mode的某些智能体功能提供了支持。

来自我们早期访问计划的用户也一直在测试该模型，以驱动个人助手、工作流自动化和UI测试，并取得了强劲的成果。以下是他们的原话：

"我们的许多工作流需要与为人设计的界面交互，其中速度尤为重要。Gemini 2.5计算机应用远远领先于竞争对手，通常比我们考虑过的次优方案快50%，表现也更出色。" — Poke.com，一个在iMessage、WhatsApp和SMS中具有多个第三方和智能体工作流的主动式AI助手。

"我们的智能体完全自主运行，执行的工作要求在收集和解析数据时不容出现细微错误。Gemini 2.5计算机应用在可靠解析复杂情况下的上下文方面优于其他模型，在我们最难的评估中性能提升了高达18%。" — Autotab，一个即插即用的AI智能体。

"当传统脚本遇到故障时，该模型会评估当前屏幕状态，并自主确定完成工作流所需的操作。这一实施方案现已成功修复超过60%的执行失败（过去通常需要多天才能修复）。" — Google的支付平台团队，该团队将计算机应用模型作为应急机制实施，以解决导致25%所有测试失败的脆弱的端到端UI测试。

如何开始使用

从今天开始，该模型以公开预览版提供，可通过Google AI Studio和Vertex AI上的Gemini API访问。

立即试用： 在Browserbase托管的演示环境中体验。
开始构建： 深入阅读我们的参考和文档（企业使用请参阅Vertex AI文档），了解如何在本地使用Playwright或在云虚拟机中使用Browserbase构建您自己的智能体循环。
加入社区： 我们期待看到您的构建成果。在我们的开发者论坛中分享反馈，帮助指导我们的路线图。