ROMA

3个月前发布 324 00

ROMA 是一个元智能体框架,利用递归层次结构解决复杂问题。通过将任务分解为可并行化的组件,ROMA 使智能体能够应对复杂的推理挑战,同时保持透明性,使上下文工程和迭代变得简单。

所在地:
美国
收录时间:
2025-09-11

在当前 AI 智能体研究快速发展的背景下,单步任务已不再是瓶颈。真正的挑战在于:如何让智能体可靠地完成需要多步骤推理、工具调用和跨源整合的复杂长期任务?

为解决这一问题,Sentient推出了 ROMA(Recursive Open-source Meta-agent Architecture) ——一个开源的元智能体框架,专为构建高性能、可追溯、可扩展的多智能体系统而设计。

ROMA

ROMA 的核心思想是:通过层次化递归任务树组织智能体协作流程,将复杂目标分解为子任务,逐层执行并聚合结果。这种结构化的上下文流动机制,显著提升了智能体在中长期任务中的稳定性与可调试性。

为什么长期任务如此困难?

尽管大模型在单步任务上表现优异(如写邮件、总结文章),但在面对需要多步推理、外部工具交互、信息综合的任务时,传统智能体往往“崩溃”。

根本原因在于:

  • 错误累积:即使每一步准确率高达 99%,10 步串联后整体成功率骤降至约 90%;若涉及幻觉、上下文丢失或工具误用,失败概率更高。
  • 黑盒式推理:多数现有系统隐藏内部决策过程,难以定位错误、优化提示或替换组件。
  • 缺乏统一架构:不同任务使用不同流程,无法复用经验,开发成本高。

以搜索任务为例,回答一个问题可能需经历:

拆解问题 → 多源检索 → 数据提取 → 交叉验证 → 综合分析

每个环节都可能出错,且环环相扣。因此,构建稳健的智能体系统,不仅需要强大的模型,更需要可靠的系统架构

ROMA

ROMA 的解决方案:结构化递归任务树

ROMA 提出了一种通用的树状任务执行架构,其核心机制如下:

层次化任务分解

  • 每个任务是一个节点
  • 父节点将复杂目标拆分为多个子任务
  • 子任务可进一步递归分解,形成多层任务树

上下文传递与聚合

  • 分解时:父节点将上下文传递给子节点
  • 执行后:子节点返回结果,由父节点作为聚合器(Aggregator)整合
  • 支持顺序依赖与并行执行(独立兄弟节点可并发处理)

优势特点

特性说明
可追溯性每个节点的输入/输出清晰可见,便于调试与优化
模块化可自由替换任意节点的智能体、工具或提示
透明性非黑盒系统,支持人工检查点插入
高效性支持并行执行,适用于大规模复杂任务

这使得 ROMA 成为一个“智能体操作系统”——它不定义具体功能,而是提供构建智能体的标准化骨架。

实例演示:ROMA Search 在复杂搜索任务中领先

为验证框架有效性,团队基于 ROMA 构建了 ROMA Search ——一个无需领域专用优化的互联网搜索智能体。

典型任务示例:

“有多少部估计净预算 ≥3.5 亿美元的电影,在其发行年不是全球票房冠军?”

该问题需完成以下步骤:

  1. 查找高预算电影清单(标题、预算、年份)
  2. 获取各年度票房最高电影
  3. 对比数据,筛选符合条件的影片
  4. 输出最终统计结果

ROMA 将此任务自动分解为子任务树,分别交由 Executor 节点调用搜索引擎、提取模型等工具执行,最后由 Aggregator 综合答案。

性能表现:多项基准领先

在权威评测 SEALQA 的挑战子集 Seal-0(测试复杂、多源推理能力)上,ROMA Search 表现卓越:

系统准确率
ROMA Search45.6%
Kimi Researcher36.0%
Gemini 2.5 Pro19.8%
Open Deep Search(开源)8.9%

✅ ROMA Search 不仅击败此前最佳系统,还将 Gemini 的成绩翻倍,成为当前最先进的开源搜索智能体。

此外,在 FRAMES(多步推理)任务中达到 SOTA,在 SimpleQA(事实检索)上接近顶尖水平,展现出强大的泛化能力。

核心架构详解:四种通用节点类型

ROMA 定义了四类标准化节点角色,可在任何任务中复用:

节点类型功能
Atomizer(原子化器)判断任务是否足够简单,决定是否分解
Planner(规划器)将复杂任务拆解为具体子任务
Executor(执行器)调用工具(如搜索 API、LLM、数据库)执行子任务
Aggregator(聚合器)收集结果,验证一致性,生成最终输出

这些节点构成递归闭环,支持任意深度的任务嵌套。

💡 注:节点类型是通用的,而每个节点使用的模型、提示、工具则可根据应用场景定制。

人机协同与可扩展设计

支持人工干预

  • 在关键节点插入人工审核,防止幻觉或错误传播
  • 规划阶段可请求用户确认子任务,提前纠正误解

模块化扩展能力

  • 任意节点可接入不同 LLM(如 GPT、Claude、DeepSeek)
  • 支持自定义工具链(API、爬虫、本地脚本)
  • 可集成多模态能力(图像理解、语音合成)

并行化与效率

  • 独立子任务自动并行执行
  • 即使任务树包含数百节点,仍能保持高效运行

为何 ROMA 是下一代智能体的关键?

ROMA 的真正价值不仅在于性能提升,更在于它重新定义了智能体系统的构建方式:

传统方法ROMA 方法
黑盒流程,难以调试结构清晰,全程可追溯
固定流水线,难复用模块化设计,灵活替换
错误累积,稳定性差分层容错,降低失败风险
开发门槛高标准化接口,快速迭代

更重要的是,ROMA 是开源的。这意味着:

  • 社区可以基于它构建金融分析、科研辅助、创意生成等各种垂直应用
  • 研究者可利用其透明追踪机制,深入研究智能体协作机制
  • 开发者能快速实验新提示、新工具、新架构

正如作者所言:“ROMA 提供了支柱——真正的突破将来自社区在其基础上构建的内容。”

数据统计

相关导航

暂无评论

none
暂无评论...