OPPO 发布 OAgents:一个模块化、可复现的基础智能体框架

新技术4个月前发布 小马良
152 0

随着“智能体(Agentic AI)”成为 AI 发展的重要方向,各类框架层出不穷。然而,当前研究普遍存在评估标准不一、实现细节不透明、结果难以复现等问题,导致不同系统之间缺乏公平比较的基础。

为应对这一挑战,OPPO 研究团队开展了一项系统性研究,聚焦于智能体框架中的关键设计选择。基于在 GAIA 和 BrowseComp 两大权威基准上的实证分析,团队提出了一套稳健的评估协议,识别出影响智能体性能的核心组件,并在此基础上开发并开源了 OAgents —— 一个模块化、高性能的基础智能体框架。

OAgents 在多个基准测试中实现了开源项目中的最优性能,旨在为智能体 AI 的可复现研究与技术演进提供可靠基础。

OPPO 发布 OAgents:一个模块化、可复现的基础智能体框架

为什么需要 OAgents?

当前的智能体研究常陷入“黑箱式创新”:新方法宣称性能提升,但缺乏对组件作用的消融分析,也未统一评估流程。这使得:

  • 难以判断性能提升来自架构创新还是调参技巧;
  • 不同框架间无法横向对比;
  • 社区难以在其基础上迭代。

OAgents 的目标不是追求短期榜单领先,而是构建一个可分析、可扩展、可复现的实验平台。它从底层设计上支持对规划、记忆、工具使用等模块的独立替换与评估,推动智能体研究从“拼装式创新”走向“科学化演进”。

核心设计:我们改了什么?

在构建 OAgents 的过程中,团队对现有智能体范式进行了多项关键修改,以提升系统性能与研究可解释性。

🔄 架构重构:模块化与可配置性

我们重新设计了智能体的核心组件,使其高度模块化:

  • 内存系统:支持短期记忆、长期记忆、记忆总结与向量化检索,可根据任务需求灵活组合。
  • 规划引擎:支持多种规划策略(如 ReAct、Tree-of-Thought、Iterative Planning),并能根据任务复杂度动态调整计划粒度。

这种设计允许研究者系统性地评估不同架构对性能的影响,而非整体替换。

🛠️ 工具优化:增强外部知识利用能力

我们重点优化了“搜索智能体”模块,提升其信息获取与处理能力:

  • 多源检索:集成 Google、Bing、Wayback Machine 等多个搜索引擎,提升信息覆盖广度;
  • 查询优化:通过语义重写与关键词提取,提升检索精度;
  • 极简浏览架构:仅提取网页关键内容,减少噪声干扰,提升解析效率。

这些改进显著增强了智能体在开放域任务中的表现。

⏱️ 测试时扩展(Test-Time Scaling):提升推理鲁棒性

为减少单次推理的随机性与错误,我们引入多种测试时优化策略:

  • 重复推理:对同一任务多次生成响应;
  • 多数投票:对结构化输出(如分类、选择)进行投票决策;
  • 一致性过滤:仅保留多次推理中一致的结果。

这些策略在不改变模型参数的前提下,有效提升了决策的稳定性与准确性。

主要功能

功能说明
多模态工具集成支持文本、语音、图像、视频输入,通过语义嵌入而非简单文本化描述,提升跨模态理解能力
优化的搜索智能体多源检索 + 查询优化 + 轻量级网页解析,提升信息获取效率
动态规划生成根据任务复杂度自动分解为子任务,并结合历史经验提示优化决策路径
记忆增强系统支持短期记忆缓存、长期记忆存储与向量检索,提升上下文持续性
测试时扩展支持内置多样性生成、投票聚合与一致性验证机制,提升输出可靠性

工作原理:智能体如何工作?

OAgents 的执行流程如下:

  1. 输入解析:接收多模态任务指令,提取语义表示;
  2. 任务规划:根据任务复杂度生成初始计划,必要时进行子任务分解;
  3. 工具调用:根据计划调用搜索、计算、代码执行等工具;
  4. 记忆管理:将关键信息存入短期或长期记忆,支持后续检索;
  5. 迭代执行:根据工具反馈更新状态,必要时调整计划;
  6. 测试时优化:对关键决策进行多次推理与结果聚合,提升最终输出质量。

整个流程支持高度可配置,便于研究不同策略的组合效果。

实验结果:在标准基准上验证有效性

我们在两个权威基准上评估了 OAgents 的性能:

1. GAIA 基准(复杂任务推理)

GAIA 包含 135 个需多步推理、工具调用和信息整合的真实任务。

模型OAgents 性能(Pass@3)
GPT-473.93%
Claude-370.21%
OAgents + GPT-473.93%(开源项目中最高)

Pass@3:三次尝试中至少一次成功即计为通过

OAgents 在 GPT-4 上实现了当前开源框架中的最佳表现,验证了其系统设计的有效性。

2. BrowseComp 基准(网页浏览任务)

该任务要求智能体通过浏览网页完成指定操作。

模型原始性能OAgents 提升后
Claude-3.74.76%22.22%

OAgents 将性能提升了近 4.7 倍,显著优于基线框架,表明其在信息检索与网页交互方面的优势。

应用场景

OAgents 适用于需要长期记忆、复杂规划、多工具协同的场景:

  • 自动化信息调研:如为某行业收集所有上市公司数据;
  • 智能客服与助手:处理需多轮查询与决策的用户请求;
  • 多模态内容理解:结合图像、语音与文本进行综合判断;
  • 动态环境决策:在任务执行中根据反馈实时调整策略。
© 版权声明

相关文章

暂无评论

none
暂无评论...