
阿里巴巴通义实验室近日发布 AgentEvolver ——一种新型自进化 AI 代理训练框架。该框架通过让大语言模型(LLM)在目标环境中自主生成训练任务,显著降低定制代理的开发成本,并在标准基准测试中将 Qwen 模型的工具使用性能提升 27.8%–29.4%。

这一成果标志着 AI 代理从“被动训练”向“主动学习”的关键转变。
传统代理训练的瓶颈
当前,基于强化学习(RL)的方法是训练 AI 代理的主流范式。但其面临两大核心挑战:
- 数据获取成本高:企业内部软件环境通常缺乏现成的交互数据集,需人工编写大量任务示例,耗时且昂贵。
- 学习效率低下:RL 依赖大量试错,计算开销大,且在稀疏奖励场景下收敛缓慢。
这使得为特定业务系统(如 CRM、ERP 或内部工具链)定制 AI 代理仍难以规模化落地。
AgentEvolver 的核心思想:让模型自己“出题、做题、改错”
AgentEvolver 构建了一个 自驱动的训练闭环,无需预定义任务或奖励函数。其核心由三个协同机制组成:
1. 自我提问(Self-Questioning)
代理主动探索环境(如点击应用界面、调用 API),识别功能边界,并基于用户意图自动生成多样化任务。例如,在一个新 CRM 系统中,它会提出“如何创建客户并分配销售代表?”这类任务。
这一机制将 LLM 从“数据消费者”转变为“数据生产者”,大幅减少人工标注需求。
2. 自我导航(Self-Navigation)
代理从成功与失败经验中提取知识,构建“行动记忆”。例如,若某次因调用不存在的 API 失败,系统会记录该函数无效,并在未来验证函数存在性后再尝试。
3. 自我归因(Self-Attribution)
不同于 RL 仅提供“成功/失败”信号,AgentEvolver 利用 LLM 回溯分析每一步操作对最终结果的贡献,提供细粒度反馈。
“就像不仅看学生答案对错,还评估每一步推理是否合理。”——研究人员 Yunpeng Zhai
这一机制尤其适用于金融、医疗等需可审计性的行业。
实验结果:性能提升近 30%
研究团队在 AppWorld 与 BFCL v3 两个多步工具调用基准上测试了 AgentEvolver,使用 Qwen2.5-7B 和 Qwen2.5-14B 模型,并与采用 GRPO(当前流行的 RL 训练方法)的基线对比:
| 模型规模 | 性能提升 |
|---|---|
| Qwen2.5-7B | +29.4% |
| Qwen2.5-14B | +27.8% |
其中,自我提问模块贡献最大,证明自主任务生成有效缓解了数据稀缺问题。即使使用少量合成数据,模型也能快速提升泛化能力。
企业价值:降低定制 AI 门槛
AgentEvolver 为组织提供了一条高效路径:
- 无需构建大规模交互数据集
- 仅需提供高层目标(如“帮助用户完成订单查询”)
- 代理在真实环境中自主探索、生成任务、迭代优化
这意味着,企业可更经济地部署专属 AI 助手,服务于内部系统、客户服务或自动化流程。
可扩展性与未来方向
尽管真实企业环境可能涉及数千个 API,AgentEvolver 通过上下文管理器动态控制记忆与检索,为大规模工具推理提供架构基础。
研究团队坦言,实现“单一模型投入任意软件环境,一夜掌握”的终极目标仍需模型与基础设施的进一步突破。但 AgentEvolver 已迈出关键一步——将训练主动权从人工管道转移至 LLM 自主进化。
数据统计
相关导航


SuperClaude 框架

mcpo

MergeKit

OpenHands GitHub Launcher

Mem0

NotebookLM






