随着“智能体(Agentic AI)”成为 AI 发展的重要方向,各类框架层出不穷。然而,当前研究普遍存在评估标准不一、实现细节不透明、结果难以复现等问题,导致不同系统之间缺乏公平比较的基础。
为应对这一挑战,OPPO 研究团队开展了一项系统性研究,聚焦于智能体框架中的关键设计选择。基于在 GAIA 和 BrowseComp 两大权威基准上的实证分析,团队提出了一套稳健的评估协议,识别出影响智能体性能的核心组件,并在此基础上开发并开源了 OAgents —— 一个模块化、高性能的基础智能体框架。
OAgents 在多个基准测试中实现了开源项目中的最优性能,旨在为智能体 AI 的可复现研究与技术演进提供可靠基础。

为什么需要 OAgents?
当前的智能体研究常陷入“黑箱式创新”:新方法宣称性能提升,但缺乏对组件作用的消融分析,也未统一评估流程。这使得:
- 难以判断性能提升来自架构创新还是调参技巧;
- 不同框架间无法横向对比;
- 社区难以在其基础上迭代。
OAgents 的目标不是追求短期榜单领先,而是构建一个可分析、可扩展、可复现的实验平台。它从底层设计上支持对规划、记忆、工具使用等模块的独立替换与评估,推动智能体研究从“拼装式创新”走向“科学化演进”。
核心设计:我们改了什么?
在构建 OAgents 的过程中,团队对现有智能体范式进行了多项关键修改,以提升系统性能与研究可解释性。
🔄 架构重构:模块化与可配置性
我们重新设计了智能体的核心组件,使其高度模块化:
- 内存系统:支持短期记忆、长期记忆、记忆总结与向量化检索,可根据任务需求灵活组合。
- 规划引擎:支持多种规划策略(如 ReAct、Tree-of-Thought、Iterative Planning),并能根据任务复杂度动态调整计划粒度。
这种设计允许研究者系统性地评估不同架构对性能的影响,而非整体替换。
🛠️ 工具优化:增强外部知识利用能力
我们重点优化了“搜索智能体”模块,提升其信息获取与处理能力:
- 多源检索:集成 Google、Bing、Wayback Machine 等多个搜索引擎,提升信息覆盖广度;
- 查询优化:通过语义重写与关键词提取,提升检索精度;
- 极简浏览架构:仅提取网页关键内容,减少噪声干扰,提升解析效率。
这些改进显著增强了智能体在开放域任务中的表现。
⏱️ 测试时扩展(Test-Time Scaling):提升推理鲁棒性
为减少单次推理的随机性与错误,我们引入多种测试时优化策略:
- 重复推理:对同一任务多次生成响应;
- 多数投票:对结构化输出(如分类、选择)进行投票决策;
- 一致性过滤:仅保留多次推理中一致的结果。
这些策略在不改变模型参数的前提下,有效提升了决策的稳定性与准确性。
主要功能
| 功能 | 说明 |
|---|---|
| 多模态工具集成 | 支持文本、语音、图像、视频输入,通过语义嵌入而非简单文本化描述,提升跨模态理解能力 |
| 优化的搜索智能体 | 多源检索 + 查询优化 + 轻量级网页解析,提升信息获取效率 |
| 动态规划生成 | 根据任务复杂度自动分解为子任务,并结合历史经验提示优化决策路径 |
| 记忆增强系统 | 支持短期记忆缓存、长期记忆存储与向量检索,提升上下文持续性 |
| 测试时扩展支持 | 内置多样性生成、投票聚合与一致性验证机制,提升输出可靠性 |
工作原理:智能体如何工作?
OAgents 的执行流程如下:
- 输入解析:接收多模态任务指令,提取语义表示;
- 任务规划:根据任务复杂度生成初始计划,必要时进行子任务分解;
- 工具调用:根据计划调用搜索、计算、代码执行等工具;
- 记忆管理:将关键信息存入短期或长期记忆,支持后续检索;
- 迭代执行:根据工具反馈更新状态,必要时调整计划;
- 测试时优化:对关键决策进行多次推理与结果聚合,提升最终输出质量。
整个流程支持高度可配置,便于研究不同策略的组合效果。
实验结果:在标准基准上验证有效性
我们在两个权威基准上评估了 OAgents 的性能:
1. GAIA 基准(复杂任务推理)
GAIA 包含 135 个需多步推理、工具调用和信息整合的真实任务。
| 模型 | OAgents 性能(Pass@3) |
|---|---|
| GPT-4 | 73.93% |
| Claude-3 | 70.21% |
| OAgents + GPT-4 | 73.93%(开源项目中最高) |
Pass@3:三次尝试中至少一次成功即计为通过
OAgents 在 GPT-4 上实现了当前开源框架中的最佳表现,验证了其系统设计的有效性。
2. BrowseComp 基准(网页浏览任务)
该任务要求智能体通过浏览网页完成指定操作。
| 模型 | 原始性能 | OAgents 提升后 |
|---|---|---|
| Claude-3.7 | 4.76% | 22.22% |
OAgents 将性能提升了近 4.7 倍,显著优于基线框架,表明其在信息检索与网页交互方面的优势。
应用场景
OAgents 适用于需要长期记忆、复杂规划、多工具协同的场景:
- 自动化信息调研:如为某行业收集所有上市公司数据;
- 智能客服与助手:处理需多轮查询与决策的用户请求;
- 多模态内容理解:结合图像、语音与文本进行综合判断;
- 动态环境决策:在任务执行中根据反馈实时调整策略。















