Browser Use

3周前发布 28 00

Browser Use 是一个帮助 AI 代理自动化网络任务的工具,通过连接到网页浏览器,让 AI 可以像人类一样操作网站。它的核心功能包括提取网站元素(如按钮和小部件),使 AI 能够导航、点击菜单、填写表单等。

所在地:
瑞士
收录时间:
2025-03-13
其他站点:
Browser UseBrowser Use

Browser Use 是一个开源 AI 工具,旨在通过控制网页浏览器使 AI 代理能够自动化网络任务。Browser Use 的主要目标是使网站对 AI 代理更易访问,允许它们自主导航、交互和提取信息,从而弥合人工智能与网页浏览之间的差距。虽然 API 是集成外部应用与 AI 代理的首选机制,但网页浏览器自动化在数字交互中扮演重要角色。Browser Use 通过提取网站的交互元素(如按钮、小部件)实现这一目标,使 AI 模型能够更轻松地理解和操作网站。

Browser Use

技术实现

Browser Use 依赖 Playwright(由 Microsoft 开发的跨浏览器自动化工具)和 Chromium 进行浏览器自动化。它与 LangChain 框架集成,支持多种大型语言模型(LLMs),包括 OpenAI 的 GPT 模型、Google Gemini、Azure OpenAI、Anthropic Claude、DeepSeek 和 Ollama。
其代理架构是分层的,包括:

  • 规划代理:负责任务分解,加载网站特定上下文以增强规划能力。
  • 浏览器导航代理:处理网页交互,执行如点击和表单填写的操作。

该工具还支持自定义浏览器,消除重新登录需求,并提供高清屏幕录制功能。持久浏览器会话功能允许在 AI 任务之间保持窗口开放,显示完整的交互历史和状态。

Browser Use

关键功能

Browser Use 提供了丰富的功能,增强了其在网络自动化中的实用性:

  • 视觉与 HTML 提取:结合视觉理解和 HTML 结构,改进对日期选择器、下拉菜单和特殊元素的提取。
  • 多标签管理:处理多个浏览器标签,支持复杂工作流。
  • 元素跟踪:提取点击元素的 XPath,并重复 LLM 动作。
  • 自定义动作:包括保存文件、数据库操作、通知和处理人类输入。
  • 自纠错处理:智能错误处理和自动恢复,减少任务失败。
  • 任何 LLM 支持:通过 LangChain 兼容如 GPT-4、Claude 3、Llama 2 等模型。

定价与计划

Browser Use 提供多种计划,满足不同用户需求:

计划价格适用对象
开源版0 美元个人开发者和开源项目
Pro 版30 美元/月需要高级功能和支持的团队和企业
Enterprise 版定制定价组织需求定制代理

开源版适合初学者和小型项目,而 Pro 和 Enterprise 版为团队和企业提供更多支持和定制选项。

性能与应用

研究表明,Browser Use 在特定任务上表现优异,例如使用 GPT-4o 绕过 BotDetect CAPTCHA 演示时达到 75% 的成功率。然而,在 WebArena 排行榜上,其成功率约为 35.8%,反映了处理真实网络任务的挑战。

其应用场景包括:

  • 网络研究与数据提取:如从招聘板、电商网站和竞争情报中提取数据。
  • 工作流自动化:如表单填写、旅行预订、包裹跟踪和账户管理。
  • 跨平台集成:与各种 AI 开发平台无缝协作。

数据统计

相关导航

暂无评论

none
暂无评论...