
在当前 AI 智能体研究快速发展的背景下,单步任务已不再是瓶颈。真正的挑战在于:如何让智能体可靠地完成需要多步骤推理、工具调用和跨源整合的复杂长期任务?
为解决这一问题,Sentient推出了 ROMA(Recursive Open-source Meta-agent Architecture) ——一个开源的元智能体框架,专为构建高性能、可追溯、可扩展的多智能体系统而设计。

ROMA 的核心思想是:通过层次化递归任务树组织智能体协作流程,将复杂目标分解为子任务,逐层执行并聚合结果。这种结构化的上下文流动机制,显著提升了智能体在中长期任务中的稳定性与可调试性。
为什么长期任务如此困难?
尽管大模型在单步任务上表现优异(如写邮件、总结文章),但在面对需要多步推理、外部工具交互、信息综合的任务时,传统智能体往往“崩溃”。
根本原因在于:
- 错误累积:即使每一步准确率高达 99%,10 步串联后整体成功率骤降至约 90%;若涉及幻觉、上下文丢失或工具误用,失败概率更高。
- 黑盒式推理:多数现有系统隐藏内部决策过程,难以定位错误、优化提示或替换组件。
- 缺乏统一架构:不同任务使用不同流程,无法复用经验,开发成本高。
以搜索任务为例,回答一个问题可能需经历:
拆解问题 → 多源检索 → 数据提取 → 交叉验证 → 综合分析
每个环节都可能出错,且环环相扣。因此,构建稳健的智能体系统,不仅需要强大的模型,更需要可靠的系统架构。

ROMA 的解决方案:结构化递归任务树
ROMA 提出了一种通用的树状任务执行架构,其核心机制如下:
层次化任务分解
- 每个任务是一个节点
- 父节点将复杂目标拆分为多个子任务
- 子任务可进一步递归分解,形成多层任务树
上下文传递与聚合
- 分解时:父节点将上下文传递给子节点
- 执行后:子节点返回结果,由父节点作为聚合器(Aggregator)整合
- 支持顺序依赖与并行执行(独立兄弟节点可并发处理)
优势特点
| 特性 | 说明 |
|---|---|
| 可追溯性 | 每个节点的输入/输出清晰可见,便于调试与优化 |
| 模块化 | 可自由替换任意节点的智能体、工具或提示 |
| 透明性 | 非黑盒系统,支持人工检查点插入 |
| 高效性 | 支持并行执行,适用于大规模复杂任务 |
这使得 ROMA 成为一个“智能体操作系统”——它不定义具体功能,而是提供构建智能体的标准化骨架。
实例演示:ROMA Search 在复杂搜索任务中领先
为验证框架有效性,团队基于 ROMA 构建了 ROMA Search ——一个无需领域专用优化的互联网搜索智能体。
典型任务示例:
“有多少部估计净预算 ≥3.5 亿美元的电影,在其发行年不是全球票房冠军?”
该问题需完成以下步骤:
- 查找高预算电影清单(标题、预算、年份)
- 获取各年度票房最高电影
- 对比数据,筛选符合条件的影片
- 输出最终统计结果
ROMA 将此任务自动分解为子任务树,分别交由 Executor 节点调用搜索引擎、提取模型等工具执行,最后由 Aggregator 综合答案。
性能表现:多项基准领先
在权威评测 SEALQA 的挑战子集 Seal-0(测试复杂、多源推理能力)上,ROMA Search 表现卓越:
| 系统 | 准确率 |
|---|---|
| ROMA Search | 45.6% |
| Kimi Researcher | 36.0% |
| Gemini 2.5 Pro | 19.8% |
| Open Deep Search(开源) | 8.9% |
✅ ROMA Search 不仅击败此前最佳系统,还将 Gemini 的成绩翻倍,成为当前最先进的开源搜索智能体。
此外,在 FRAMES(多步推理)任务中达到 SOTA,在 SimpleQA(事实检索)上接近顶尖水平,展现出强大的泛化能力。
核心架构详解:四种通用节点类型
ROMA 定义了四类标准化节点角色,可在任何任务中复用:
| 节点类型 | 功能 |
|---|---|
| Atomizer(原子化器) | 判断任务是否足够简单,决定是否分解 |
| Planner(规划器) | 将复杂任务拆解为具体子任务 |
| Executor(执行器) | 调用工具(如搜索 API、LLM、数据库)执行子任务 |
| Aggregator(聚合器) | 收集结果,验证一致性,生成最终输出 |
这些节点构成递归闭环,支持任意深度的任务嵌套。
💡 注:节点类型是通用的,而每个节点使用的模型、提示、工具则可根据应用场景定制。
人机协同与可扩展设计
支持人工干预
- 在关键节点插入人工审核,防止幻觉或错误传播
- 规划阶段可请求用户确认子任务,提前纠正误解
模块化扩展能力
- 任意节点可接入不同 LLM(如 GPT、Claude、DeepSeek)
- 支持自定义工具链(API、爬虫、本地脚本)
- 可集成多模态能力(图像理解、语音合成)
并行化与效率
- 独立子任务自动并行执行
- 即使任务树包含数百节点,仍能保持高效运行
为何 ROMA 是下一代智能体的关键?
ROMA 的真正价值不仅在于性能提升,更在于它重新定义了智能体系统的构建方式:
| 传统方法 | ROMA 方法 |
|---|---|
| 黑盒流程,难以调试 | 结构清晰,全程可追溯 |
| 固定流水线,难复用 | 模块化设计,灵活替换 |
| 错误累积,稳定性差 | 分层容错,降低失败风险 |
| 开发门槛高 | 标准化接口,快速迭代 |
更重要的是,ROMA 是开源的。这意味着:
- 社区可以基于它构建金融分析、科研辅助、创意生成等各种垂直应用
- 研究者可利用其透明追踪机制,深入研究智能体协作机制
- 开发者能快速实验新提示、新工具、新架构
正如作者所言:“ROMA 提供了支柱——真正的突破将来自社区在其基础上构建的内容。”
数据统计
相关导航


AgenticSeek

SurfSense

Suna

MyShell

LemonAI

OxyGent






