OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

154 0

OPPO AI实验室推出一种新的范式——Chain-of-Agents（CoA），用于在单个模型中实现多智能体系统（Multi-Agent Systems, MAS）的复杂问题解决能力。传统的多智能体系统通常依赖于手动的提示/工作流工程，计算效率低下，且难以从数据驱动的学习中受益。而CoA范式通过动态激活不同的工具智能体（Tool Agents）和角色扮演智能体（Role-playing Agents），在单个模型中模拟多智能体协作，从而实现端到端的复杂问题解决。

项目主页：https://chain-of-agents-afm.github.io
GitHub：https://github.com/OPPO-PersonalAI/Agent_Foundation_Models
模型：https://huggingface.co/collections/PersonalAILab/afm-models-689200e11d0b21a67c015ba8

例如，有一个任务是“分析全球人口在过去一年的变化，并生成一份报告”。在传统的多智能体系统中，可能需要多个智能体分别负责搜索、数据提取、代码生成和报告撰写，且需要复杂的提示和工作流设计。而CoA范式下，模型可以动态激活搜索智能体获取数据，代码生成智能体处理数据，最后由报告撰写智能体生成报告，所有步骤在单个模型中完成，无需复杂的工程设计。

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

主要功能

复杂问题解决：CoA能够处理多步推理任务，涉及多个工具和多个智能体的协作。
动态智能体激活：根据任务需求动态激活不同的智能体，例如搜索智能体、代码生成智能体等。
多智能体蒸馏：通过将现有的多智能体系统的执行轨迹蒸馏为CoA轨迹，用于监督式微调（Supervised Fine-Tuning, SFT）。
智能体强化学习：使用强化学习进一步优化模型在可验证任务上的性能。

主要特点

端到端训练：CoA支持从输入到输出的端到端训练，无需复杂的提示工程或工作流设计。
计算效率高：通过减少智能体间通信的冗余，降低了计算开销。
数据驱动学习：能够从数据中学习，支持模型性能的持续提升。
泛化能力强：在未见过的任务上表现出色，具有良好的泛化能力。

工作原理

多智能体蒸馏：
- 从现有的多智能体系统（如OAgents）中提取执行轨迹。
- 将这些轨迹转换为CoA兼容的格式，用于监督式微调。
- 通过多阶段过滤机制，确保高质量的训练数据。
智能体强化学习：
- 在验证过的任务上进行强化学习，优化模型的策略。
- 使用LLM-as-Judge评估答案的正确性，设计奖励函数以激励模型生成正确的答案。

测试结果

Web Agent实验：
- 在GAIA、BrowseComp、HLE等基准测试中，AFM取得了新的最佳性能。
- 例如，在GAIA上，AFM达到了55.3%的Pass@1成功率，比之前的最佳模型高出2.1%。
Code Agent实验：
- 在LiveCodeBench v5和CodeContests等基准测试中，AFM显著优于现有的工具集成推理（TIR）方法。
- 例如，在AIME2025基准测试中，AFM达到了59.8%的解题率，比之前的最佳模型高出10.5%。
计算效率：
- AFM在推理成本（以token消耗计）上比传统多智能体系统降低了84.6%，同时保持了竞争力。