Project Mariner

10个月前发布 470 00

Project Mariner 是 Google DeepMind 开发的一个研究原型，探索未来人类与 AI 代理的交互方式，特别聚焦于浏览器环境。它允许用户通过自然语言指令同时自动化执行多项任务，例如研究、规划和数据录入，这些任务在运行于虚拟机上的浏览器中完成。

所在地：

美国

收录时间：

2025-05-26

其他站点:

官网浏览器插件

打开网站手机查看

Project Mariner

打开网站

Project Mariner 是 Google DeepMind 开发的一个研究原型，探索人类与 AI 代理在浏览器环境中的交互未来，特别聚焦于通过自然语言指令自动化执行复杂任务。该项目的研究目标是提升用户与 AI 代理的协作效率，特别是在浏览器运行于虚拟机上的场景中，支持任务如研究、规划和数据录入。

背景与目的

Project Mariner 的核心目的是通过自然语言指令，让用户能够同时自动化执行多项任务，减少手动操作的复杂性。它特别适合需要处理大量网页信息的场景，例如数据收集、表单填写或多步骤规划。研究表明，这种交互方式可以显著提升效率，尤其是在虚拟机环境中运行浏览器时。

核心功能

Project Mariner 的关键功能包括以下几个方面：

多模态推理：该代理能够观察和理解各种网页元素，包括文本、代码、图像和表单。它通过分析这些元素，规划可执行的步骤，并与网站进行交互，例如导航、点击或输入数据。
教学与重复：用户可以教代理执行特定任务，例如如何填写一个复杂的表单或如何从多个网页收集信息。代理随后能够以极少的输入重复这些工作流程，减少重复性劳动，提高效率。
集成：Project Mariner 计划与 Gemini API 和其他谷歌产品集成，这将进一步扩展其功能，例如与谷歌的 AI 生态系统无缝对接，增强其在开发者社区中的实用性。

工作原理

Project Mariner 的工作流程可以分为三个主要阶段：

观察（Observes）：代理首先识别并理解网页上的各种元素，通过多模态推理构建对任务的上下文理解。例如，它能识别表单字段、图像内容或代码片段，以确保对用户意图的准确把握。
规划（Plans）：在理解任务目标后，代理会解释用户的目标，进行推理，并生成一个决策大纲，分享其计划步骤。这一步允许用户了解代理的决策过程，确保透明性。
执行（Acts）：代理根据规划执行动作，例如导航到特定网页、填写表单或提取数据。在执行过程中，允许用户随时通过提示干预或停止操作，用户也可以随时接管控制权，确保灵活性和可控性。

性能与评估

虽然具体性能数据未在官方页面中详细列出，但 Project Mariner 的设计目标是提供高效的自动化能力，特别是在浏览器环境中。其多模态推理和教学与重复功能表明，它在处理复杂任务时具有较强的适应性。

可用性与用户反馈

目前，Project Mariner 仅在美国向 Google AI Ultra 的订阅用户开放，表明其仍处于研究原型阶段。谷歌鼓励用户提供反馈，以帮助改进和完善该系统。这表明 Project Mariner 是一个正在发展的项目，未来可能会有更多功能和更广泛的可用性。

数据统计

暂无评论

暂无评论...