Magentic-UI

10个月前发布 509 00

Magentic-UI 是一个由多代理系统驱动的研究原型，专为网页任务自动化而设计。它不仅能帮助用户在网页上轻松浏览和执行各种操作，还能生成和执行代码，以及生成和分析文件。无论是填写复杂的表单、定制个性化的食品订单，还是在未被搜索引擎索引的网站上进行深度导航，如筛选航班、查找个人网站上的链接，亦或是需要网页导航和代码执行的任务，如从在线数...

所在地：

美国

收录时间：

2025-05-22

打开网站手机查看

Magentic-UI

打开网站

在数字化时代，网页任务自动化已成为提升工作效率的关键。然而，许多自动化工具要么操作复杂，要么缺乏足够的控制力，让用户难以放心使用。今天，我们要介绍的 Magentic-UI，就是一款能够完美解决这些问题的新型人机交互界面。

Magentic-UI：以人为中心的网页任务自动化利器

与其他浏览器使用产品相比，Magentic-UI 的优势在于其透明且可控的界面，它允许用户高效地参与人机协同工作。Magentic-UI 使用 AutoGen 构建，为研究人机交互和实验网页代理提供了一个绝佳的平台。它具备以下主要功能：

协同规划：用户可以通过聊天和计划编辑器与系统协作，共同创建并批准分步计划，确保任务的每一步都符合用户的期望。
协同任务执行：用户可以直接通过网页浏览器或聊天中断和引导任务执行。Magentic-UI 会在需要时主动请求澄清和帮助，确保任务的顺利进行。
操作保护：对于敏感操作，系统会要求获得用户的明确批准后才会执行，充分保障用户的隐私和安全。
计划学习与检索：系统会从之前的运行中学习，以改进未来的任务自动化，并将这些计划保存在计划库中。用户可以自动或手动检索保存的计划，用于未来的任务，提高工作效率。
并行任务执行：用户可以同时运行多个任务，会话状态指示器会实时通知用户何时需要输入或任务已完成，让任务管理更加高效。

Magentic-UI 的界面设计与操作体验

Magentic-UI 的界面简洁直观，包含两个主要面板。左侧面板是会话导航器，用户可以在这里创建新会话以解决新任务、轻松切换会话，并通过会话状态指示器（🔴 需要输入，✅ 任务完成，↺ 任务进行中）随时查看会话的进度。右侧面板则显示所选会话的详细信息，用户可以在这里向 Magentic-UI 输入查询，附带文本和图片附件，观察任务的详细进度，并与代理进行实时交互。会话显示本身分为两个部分：左侧是 Magentic-UI 展示计划、任务进度和请求操作批准的地方，右侧是浏览器视图，用户可以实时查看网页代理的操作，并与浏览器进行交互。此外，会话显示顶部的进度条会随着 Magentic-UI 的进展而更新，让用户对任务的整体进度一目了然。

Magentic-UI 的工作原理

Magentic-UI 的底层系统是基于 AutoGen 的 Magentic-One 系统改编的多个专业代理团队，它们协同工作，形成了一个高效且模块化的系统。这些代理包括：

Orchestrator：作为主代理，由大型语言模型（LLM）驱动，负责与用户进行协同规划，决定何时需要请求用户反馈，并将子任务委托给其他代理完成。
WebSurfer：这是一个配备可控网页浏览器的 LLM 代理。根据 Orchestrator 的请求，它可以点击、输入、滚动和访问页面，通过多轮操作完成任务。与 AutoGen 的 MultimodalWebSurfer 相比，该代理在操作能力上有了显著改进，例如标签管理、选择选项、文件上传和多模态查询等。
Coder：这是一个配备 Docker 代码执行容器的 LLM 代理，能够编写和执行 Python 及 shell 命令，并将响应返回给 Orchestrator。
FileSurfer：这是一个配备 Docker 代码执行容器和 MarkItDown 软件包文件转换工具的 LLM 代理，可以定位 Magentic-UI 控制的目录中的文件，将文件转换为 markdown，并回答相关问题。
UserProxy：代表与 Magentic-UI 交互的用户的代理，Orchestrator 可以将工作委托给用户，而不是其他代理。

用户可以通过输入文本消息和附加图片与 Magentic-UI 进行交互。作为响应，Magentic-UI 会创建一个自然语言的分步计划，用户可以通过计划编辑界面与之进行交互。用户可以自由地添加、删除、编辑、重新生成步骤，或撰写后续消息以迭代计划。虽然用户编辑计划可能会增加一些交互的前期成本，但这可以显著节省代理执行计划的时间，并提高成功率。

计划存储在 Orchestrator 内部，用于执行任务。对于计划的每一步，Orchestrator 会决定由哪个代理（WebSurfer、Coder、FileSurfer）或用户来完成该步骤。决定后，Orchestrator 向相应的代理或用户发送请求并等待响应。收到响应后，Orchestrator 会判断该步骤是否完成。如果完成，Orchestrator 就会继续执行下一步。

一旦所有步骤都完成，Orchestrator 会生成最终答案并呈现给用户。如果在执行任何步骤时，Orchestrator 判断计划不足（例如，某个网站无法访问），它可以在用户许可下重新规划并开始执行新计划。所有中间进度步骤都会清楚地展示给用户，用户还可以暂停计划执行并发送额外的请求或反馈。此外，用户也可以通过界面配置代理操作（例如点击按钮）是否需要批准，进一步增强对任务的控制。

如何开始使用 Magentic-UI

安装和运行 Magentic-UI 非常简单，如果您愿意，还可以从源代码进行构建。不过，在安装之前，请务必仔细阅读先决条件。Magentic-UI 需要 Docker 才能运行，如果您使用的是 Windows 系统，则需要 WSL2。我们建议使用 uv 来加快安装速度。如果您使用的是 Mac 或 Linux 系统，就可以跳过 WSL2 的步骤。

先决条件

Docker：Magentic-UI 的正常运行需要 Docker。如果在 Windows 或 Mac 上运行，可以使用 Docker Desktop。
WSL2（仅限 Windows）：在 Windows 上运行 Magentic-UI 需要 WSL2。您可以按照相关说明进行安装，并确保 Docker Desktop 配置为使用 WSL2（设置 > 资源 > WSL 集成）。更详细的说明可以在相关网站上找到。
OpenAI API 密钥：您需要通过设置环境变量 OPENAI_API_KEY 为 Magentic-UI 提供您的 OpenAI API 密钥。或者，您也可以查看下面的自定义客户端配置部分。
Python：您需要安装至少 Python 3.10。

Magentic-UI 以其高效、可控的网页任务自动化能力，为用户带来了全新的体验。它不仅能够满足各种复杂的网页操作需求，还能通过透明的交互界面让用户全程参与其中，确保任务的每一步都符合用户的期望。无论是个人用户还是企业团队，Magentic-UI 都是一个值得尝试的工具。

数据统计

暂无评论

暂无评论...

Magentic-UI

数据统计

相关导航

Refly

OneContext

ALLWEONE® AI Presentation Generator

Heretic

Unsloth AI

Ai2 Paper Finder

Bevel

Deep Eye

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw

Magentic-UI

数据统计

相关导航

Refly

OneContext

ALLWEONE® AI Presentation Generator

Heretic

Unsloth AI

Ai2 Paper Finder

Bevel

Deep Eye

暂无评论

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw