Project Mariner

7个月前发布 348 00

Project Mariner 是 Google DeepMind 开发的一个研究原型,探索未来人类与 AI 代理的交互方式,特别聚焦于浏览器环境。它允许用户通过自然语言指令同时自动化执行多项任务,例如研究、规划和数据录入,这些任务在运行于虚拟机上的浏览器中完成。

所在地:
美国
收录时间:
2025-05-26
Project MarinerProject Mariner

Project MarinerGoogle DeepMind 开发的一个研究原型,探索人类与 AI 代理在浏览器环境中的交互未来,特别聚焦于通过自然语言指令自动化执行复杂任务。该项目的研究目标是提升用户与 AI 代理的协作效率,特别是在浏览器运行于虚拟机上的场景中,支持任务如研究、规划和数据录入。

背景与目的

Project Mariner 的核心目的是通过自然语言指令,让用户能够同时自动化执行多项任务,减少手动操作的复杂性。它特别适合需要处理大量网页信息的场景,例如数据收集、表单填写或多步骤规划。研究表明,这种交互方式可以显著提升效率,尤其是在虚拟机环境中运行浏览器时。

核心功能

Project Mariner 的关键功能包括以下几个方面:

  • 多模态推理:该代理能够观察和理解各种网页元素,包括文本、代码、图像和表单。它通过分析这些元素,规划可执行的步骤,并与网站进行交互,例如导航、点击或输入数据。
  • 教学与重复:用户可以教代理执行特定任务,例如如何填写一个复杂的表单或如何从多个网页收集信息。代理随后能够以极少的输入重复这些工作流程,减少重复性劳动,提高效率。
  • 集成:Project Mariner 计划与 Gemini API 和其他谷歌产品集成,这将进一步扩展其功能,例如与谷歌的 AI 生态系统无缝对接,增强其在开发者社区中的实用性。

工作原理

Project Mariner 的工作流程可以分为三个主要阶段:

  1. 观察(Observes):代理首先识别并理解网页上的各种元素,通过多模态推理构建对任务的上下文理解。例如,它能识别表单字段、图像内容或代码片段,以确保对用户意图的准确把握。
  2. 规划(Plans):在理解任务目标后,代理会解释用户的目标,进行推理,并生成一个决策大纲,分享其计划步骤。这一步允许用户了解代理的决策过程,确保透明性。
  3. 执行(Acts):代理根据规划执行动作,例如导航到特定网页、填写表单或提取数据。在执行过程中,允许用户随时通过提示干预或停止操作,用户也可以随时接管控制权,确保灵活性和可控性。

性能与评估

虽然具体性能数据未在官方页面中详细列出,但 Project Mariner 的设计目标是提供高效的自动化能力,特别是在浏览器环境中。其多模态推理和教学与重复功能表明,它在处理复杂任务时具有较强的适应性。

可用性与用户反馈

目前,Project Mariner 仅在美国向 Google AI Ultra 的订阅用户开放,表明其仍处于研究原型阶段。谷歌鼓励用户提供反馈,以帮助改进和完善该系统。这表明 Project Mariner 是一个正在发展的项目,未来可能会有更多功能和更广泛的可用性。

数据统计

相关导航

暂无评论

none
暂无评论...