AgentEvolver 

1周前发布 19 00

AgentEvolver 是一个端到端的自我进化训练框架,它将自我提问、自我导航与自我归因统一整合为连贯系统。该框架赋予智能体自主提升能力的功能,致力于实现高效、经济且持续的能力进化。

所在地:
中国
收录时间:
2025-11-30
其他站点:
AgentEvolver AgentEvolver 

阿里巴巴通义实验室近日发布 AgentEvolver ——一种新型自进化 AI 代理训练框架。该框架通过让大语言模型(LLM)在目标环境中自主生成训练任务,显著降低定制代理的开发成本,并在标准基准测试中将 Qwen 模型的工具使用性能提升 27.8%–29.4%

AgentEvolver 

这一成果标志着 AI 代理从“被动训练”向“主动学习”的关键转变。

传统代理训练的瓶颈

当前,基于强化学习(RL)的方法是训练 AI 代理的主流范式。但其面临两大核心挑战:

  1. 数据获取成本高:企业内部软件环境通常缺乏现成的交互数据集,需人工编写大量任务示例,耗时且昂贵。
  2. 学习效率低下:RL 依赖大量试错,计算开销大,且在稀疏奖励场景下收敛缓慢。

这使得为特定业务系统(如 CRM、ERP 或内部工具链)定制 AI 代理仍难以规模化落地。

AgentEvolver 的核心思想:让模型自己“出题、做题、改错”

AgentEvolver 构建了一个 自驱动的训练闭环,无需预定义任务或奖励函数。其核心由三个协同机制组成:

1. 自我提问(Self-Questioning)

代理主动探索环境(如点击应用界面、调用 API),识别功能边界,并基于用户意图自动生成多样化任务。例如,在一个新 CRM 系统中,它会提出“如何创建客户并分配销售代表?”这类任务。

这一机制将 LLM 从“数据消费者”转变为“数据生产者”,大幅减少人工标注需求。

2. 自我导航(Self-Navigation)

代理从成功与失败经验中提取知识,构建“行动记忆”。例如,若某次因调用不存在的 API 失败,系统会记录该函数无效,并在未来验证函数存在性后再尝试。

3. 自我归因(Self-Attribution)

不同于 RL 仅提供“成功/失败”信号,AgentEvolver 利用 LLM 回溯分析每一步操作对最终结果的贡献,提供细粒度反馈。

“就像不仅看学生答案对错,还评估每一步推理是否合理。”——研究人员 Yunpeng Zhai

这一机制尤其适用于金融、医疗等需可审计性的行业。

实验结果:性能提升近 30%

研究团队在 AppWorld 与 BFCL v3 两个多步工具调用基准上测试了 AgentEvolver,使用 Qwen2.5-7B 和 Qwen2.5-14B 模型,并与采用 GRPO(当前流行的 RL 训练方法)的基线对比:

模型规模性能提升
Qwen2.5-7B+29.4%
Qwen2.5-14B+27.8%

其中,自我提问模块贡献最大,证明自主任务生成有效缓解了数据稀缺问题。即使使用少量合成数据,模型也能快速提升泛化能力。

企业价值:降低定制 AI 门槛

AgentEvolver 为组织提供了一条高效路径:

  • 无需构建大规模交互数据集
  • 仅需提供高层目标(如“帮助用户完成订单查询”)
  • 代理在真实环境中自主探索、生成任务、迭代优化

这意味着,企业可更经济地部署专属 AI 助手,服务于内部系统、客户服务或自动化流程。

可扩展性与未来方向

尽管真实企业环境可能涉及数千个 API,AgentEvolver 通过上下文管理器动态控制记忆与检索,为大规模工具推理提供架构基础。

研究团队坦言,实现“单一模型投入任意软件环境,一夜掌握”的终极目标仍需模型与基础设施的进一步突破。但 AgentEvolver 已迈出关键一步——将训练主动权从人工管道转移至 LLM 自主进化

数据统计

相关导航

暂无评论

none
暂无评论...