
在数字化时代,网页任务自动化已成为提升工作效率的关键。然而,许多自动化工具要么操作复杂,要么缺乏足够的控制力,让用户难以放心使用。今天,我们要介绍的 Magentic-UI,就是一款能够完美解决这些问题的新型人机交互界面。

Magentic-UI:以人为中心的网页任务自动化利器
Magentic-UI 是一个由多代理系统驱动的研究原型,专为网页任务自动化而设计。它不仅能帮助用户在网页上轻松浏览和执行各种操作,还能生成和执行代码,以及生成和分析文件。无论是填写复杂的表单、定制个性化的食品订单,还是在未被搜索引擎索引的网站上进行深度导航,如筛选航班、查找个人网站上的链接,亦或是需要网页导航和代码执行的任务,如从在线数据生成图表,Magentic-UI 都能轻松应对。

与其他浏览器使用产品相比,Magentic-UI 的优势在于其透明且可控的界面,它允许用户高效地参与人机协同工作。Magentic-UI 使用 AutoGen 构建,为研究人机交互和实验网页代理提供了一个绝佳的平台。它具备以下主要功能:
- 协同规划:用户可以通过聊天和计划编辑器与系统协作,共同创建并批准分步计划,确保任务的每一步都符合用户的期望。
- 协同任务执行:用户可以直接通过网页浏览器或聊天中断和引导任务执行。Magentic-UI 会在需要时主动请求澄清和帮助,确保任务的顺利进行。
- 操作保护:对于敏感操作,系统会要求获得用户的明确批准后才会执行,充分保障用户的隐私和安全。
- 计划学习与检索:系统会从之前的运行中学习,以改进未来的任务自动化,并将这些计划保存在计划库中。用户可以自动或手动检索保存的计划,用于未来的任务,提高工作效率。
- 并行任务执行:用户可以同时运行多个任务,会话状态指示器会实时通知用户何时需要输入或任务已完成,让任务管理更加高效。
Magentic-UI 的界面设计与操作体验
Magentic-UI 的界面简洁直观,包含两个主要面板。左侧面板是会话导航器,用户可以在这里创建新会话以解决新任务、轻松切换会话,并通过会话状态指示器(🔴 需要输入,✅ 任务完成,↺ 任务进行中)随时查看会话的进度。右侧面板则显示所选会话的详细信息,用户可以在这里向 Magentic-UI 输入查询,附带文本和图片附件,观察任务的详细进度,并与代理进行实时交互。会话显示本身分为两个部分:左侧是 Magentic-UI 展示计划、任务进度和请求操作批准的地方,右侧是浏览器视图,用户可以实时查看网页代理的操作,并与浏览器进行交互。此外,会话显示顶部的进度条会随着 Magentic-UI 的进展而更新,让用户对任务的整体进度一目了然。

Magentic-UI 的工作原理
Magentic-UI 的底层系统是基于 AutoGen 的 Magentic-One 系统改编的多个专业代理团队,它们协同工作,形成了一个高效且模块化的系统。这些代理包括:
- Orchestrator:作为主代理,由大型语言模型(LLM)驱动,负责与用户进行协同规划,决定何时需要请求用户反馈,并将子任务委托给其他代理完成。
- WebSurfer:这是一个配备可控网页浏览器的 LLM 代理。根据 Orchestrator 的请求,它可以点击、输入、滚动和访问页面,通过多轮操作完成任务。与 AutoGen 的 MultimodalWebSurfer 相比,该代理在操作能力上有了显著改进,例如标签管理、选择选项、文件上传和多模态查询等。
- Coder:这是一个配备 Docker 代码执行容器的 LLM 代理,能够编写和执行 Python 及 shell 命令,并将响应返回给 Orchestrator。
- FileSurfer:这是一个配备 Docker 代码执行容器和 MarkItDown 软件包文件转换工具的 LLM 代理,可以定位 Magentic-UI 控制的目录中的文件,将文件转换为 markdown,并回答相关问题。
- UserProxy:代表与 Magentic-UI 交互的用户的代理,Orchestrator 可以将工作委托给用户,而不是其他代理。
用户可以通过输入文本消息和附加图片与 Magentic-UI 进行交互。作为响应,Magentic-UI 会创建一个自然语言的分步计划,用户可以通过计划编辑界面与之进行交互。用户可以自由地添加、删除、编辑、重新生成步骤,或撰写后续消息以迭代计划。虽然用户编辑计划可能会增加一些交互的前期成本,但这可以显著节省代理执行计划的时间,并提高成功率。

计划存储在 Orchestrator 内部,用于执行任务。对于计划的每一步,Orchestrator 会决定由哪个代理(WebSurfer、Coder、FileSurfer)或用户来完成该步骤。决定后,Orchestrator 向相应的代理或用户发送请求并等待响应。收到响应后,Orchestrator 会判断该步骤是否完成。如果完成,Orchestrator 就会继续执行下一步。

一旦所有步骤都完成,Orchestrator 会生成最终答案并呈现给用户。如果在执行任何步骤时,Orchestrator 判断计划不足(例如,某个网站无法访问),它可以在用户许可下重新规划并开始执行新计划。所有中间进度步骤都会清楚地展示给用户,用户还可以暂停计划执行并发送额外的请求或反馈。此外,用户也可以通过界面配置代理操作(例如点击按钮)是否需要批准,进一步增强对任务的控制。

如何开始使用 Magentic-UI
安装和运行 Magentic-UI 非常简单,如果您愿意,还可以从源代码进行构建。不过,在安装之前,请务必仔细阅读先决条件。Magentic-UI 需要 Docker 才能运行,如果您使用的是 Windows 系统,则需要 WSL2。我们建议使用 uv 来加快安装速度。如果您使用的是 Mac 或 Linux 系统,就可以跳过 WSL2 的步骤。

先决条件
- Docker:Magentic-UI 的正常运行需要 Docker。如果在 Windows 或 Mac 上运行,可以使用 Docker Desktop。
- WSL2(仅限 Windows):在 Windows 上运行 Magentic-UI 需要 WSL2。您可以按照相关说明进行安装,并确保 Docker Desktop 配置为使用 WSL2(设置 > 资源 > WSL 集成)。更详细的说明可以在相关网站上找到。
- OpenAI API 密钥:您需要通过设置环境变量 OPENAI_API_KEY 为 Magentic-UI 提供您的 OpenAI API 密钥。或者,您也可以查看下面的自定义客户端配置部分。
- Python:您需要安装至少 Python 3.10。
Magentic-UI 以其高效、可控的网页任务自动化能力,为用户带来了全新的体验。它不仅能够满足各种复杂的网页操作需求,还能通过透明的交互界面让用户全程参与其中,确保任务的每一步都符合用户的期望。无论是个人用户还是企业团队,Magentic-UI 都是一个值得尝试的工具。
数据统计
相关导航


Browser Use

魔搭MCP广场

Luma API MCP

Revornix

Raycast AI

AstrBot







