agent-browser

3天前发布 2 00

agent-browser是一款专为AI智能体设计的无头浏览器自动化命令行工具。基于快速的Rust CLI,并备有Node.js回退方案。

所在地:
美国
收录时间:
2026-01-14
其他站点:
agent-browseragent-browser

agent-browser 是由 Vercel 开源的一款专为 AI 智能体设计的无头浏览器自动化 CLI 工具,专为 AI 编程助手(如 Claude Code、Cursor、GitHub Copilot、Gemini、CodeWhisperer 等)提供可靠、高效的浏览器自动化能力。它以 AI 友好 为核心设计理念,通过结构化输出和确定性交互,让大模型能稳定地“操作网页”。

agent-browser

可通过 npm 一键安装:

npm install -g agent-browser

核心特性

  • 通用兼容
    支持所有主流 AI 智能体,包括 Claude、Cursor、Copilot、Gemini、CodeLlama 等,无需定制适配。
  • AI 优先设计
    snapshot 命令返回带唯一引用标识(如 @e1@e2)的可访问性树(Accessibility Tree),使 LLM 能精准、可靠地引用页面元素,避免模糊描述导致的操作失败。
  • 极速响应
    命令解析由原生 Rust CLI 实现,启动快、延迟低;浏览器控制由轻量级 Node.js 守护进程管理,兼顾性能与兼容性。
  • 功能全面
    提供 50+ 条命令,覆盖:

    • 页面导航(opengo-backreload
    • 元素交互(clicktypehover
    • 表单操作(fillselect
    • 截图(screenshot
    • 网络与存储(cookieslocalStorage
    • 多会话管理(--session
  • 多会话隔离
    支持同时运行多个独立浏览器实例,每个会话拥有独立 Cookie、缓存和登录状态,适用于多账号或并行任务场景。
  • 跨平台原生支持
    提供 macOS(ARM64/x64)、Linux(ARM64/x64)、Windows(x64)的预编译二进制文件,开箱即用。
  • 无服务器依赖
    可指定自定义 Chromium 路径,亦支持嵌入轻量级 Chromium 构建,适合本地或边缘环境部署。

使用示例

# 打开网页并获取结构化快照
agent-browser open https://example.com
agent-browser snapshot -i

# 输出示例:
# - 标题 "Example Domain" [ref=e1]
# - 链接 "More information..." [ref=e2]

# 通过引用标识精准点击
agent-browser click @e2

# 截图保存
agent-browser screenshot page.png

# 关闭当前会话
agent-browser close

为何使用“引用标识”?

传统自动化依赖 XPath 或 CSS 选择器,但这些对 LLM 来说难以生成且易失效。agent-browser 采用 快照 + 引用标识 的机制:

  • 确定性:每个 @eX 唯一对应快照中的一个 DOM 元素
  • 高效性:无需重复查询 DOM,直接通过 ID 定位
  • AI 友好:LLM 只需记住或引用 @e2,即可完成后续操作,大幅降低出错率

🏗️ 架构设计

采用 客户端-守护进程 模式,兼顾速度与稳定性:

  • Rust CLI 客户端:负责命令解析、参数校验与用户交互,启动极快
  • Node.js 守护进程:后台运行 Playwright 浏览器实例,管理会话生命周期
  • 守护进程在首次调用时自动启动,并在多次命令间复用,避免重复初始化开销

📦 支持平台

平台架构二进制支持
macOSARM64 / x64
LinuxARM64 / x64
Windowsx64

数据统计

相关导航

腾讯云代码助手

腾讯云代码助手

腾讯云代码助手是由腾讯云自研的一款开发编程提效辅助工具,开发者可以通过插件的方式将腾讯云代码助手安装到编辑器中辅助编程工作(VS Code 或者 JetBrians 系列 IDE);而腾讯云代码助手插件将提供:自动补全代码、根据注释生成代码、代码解释、生成测试代码、转换代码语言、技术对话等能力。通过腾讯云代码助手,开发者可以更高效地解决实际编程问题,提高编程效率和代码质量。

暂无评论

none
暂无评论...