AgentEvolver

4个月前发布 132 00

AgentEvolver 是一个端到端的自我进化训练框架，它将自我提问、自我导航与自我归因统一整合为连贯系统。该框架赋予智能体自主提升能力的功能，致力于实现高效、经济且持续的能力进化。

所在地：

中国

收录时间：

2025-11-30

其他站点:

AgentEvolver

阿里巴巴通义实验室近日发布 AgentEvolver ——一种新型自进化 AI 代理训练框架。该框架通过让大语言模型（LLM）在目标环境中自主生成训练任务，显著降低定制代理的开发成本，并在标准基准测试中将 Qwen 模型的工具使用性能提升 27.8%–29.4%。

这一成果标志着 AI 代理从“被动训练”向“主动学习”的关键转变。

当前，基于强化学习（RL）的方法是训练 AI 代理的主流范式。但其面临两大核心挑战：

这使得为特定业务系统（如 CRM、ERP 或内部工具链）定制 AI 代理仍难以规模化落地。

AgentEvolver 构建了一个 自驱动的训练闭环，无需预定义任务或奖励函数。其核心由三个协同机制组成：

代理主动探索环境（如点击应用界面、调用 API），识别功能边界，并基于用户意图自动生成多样化任务。例如，在一个新 CRM 系统中，它会提出“如何创建客户并分配销售代表？”这类任务。

这一机制将 LLM 从“数据消费者”转变为“数据生产者”，大幅减少人工标注需求。

代理从成功与失败经验中提取知识，构建“行动记忆”。例如，若某次因调用不存在的 API 失败，系统会记录该函数无效，并在未来验证函数存在性后再尝试。

不同于 RL 仅提供“成功/失败”信号，AgentEvolver 利用 LLM 回溯分析每一步操作对最终结果的贡献，提供细粒度反馈。

“就像不仅看学生答案对错，还评估每一步推理是否合理。”——研究人员 Yunpeng Zhai

这一机制尤其适用于金融、医疗等需可审计性的行业。

研究团队在 AppWorld 与 BFCL v3 两个多步工具调用基准上测试了 AgentEvolver，使用 Qwen2.5-7B 和 Qwen2.5-14B 模型，并与采用 GRPO（当前流行的 RL 训练方法）的基线对比：

模型规模	性能提升
Qwen2.5-7B	+29.4%
Qwen2.5-14B	+27.8%

其中，自我提问模块贡献最大，证明自主任务生成有效缓解了数据稀缺问题。即使使用少量合成数据，模型也能快速提升泛化能力。

AgentEvolver 为组织提供了一条高效路径：

这意味着，企业可更经济地部署专属 AI 助手，服务于内部系统、客户服务或自动化流程。

尽管真实企业环境可能涉及数千个 API，AgentEvolver 通过上下文管理器动态控制记忆与检索，为大规模工具推理提供架构基础。

研究团队坦言，实现“单一模型投入任意软件环境，一夜掌握”的终极目标仍需模型与基础设施的进一步突破。但 AgentEvolver 已迈出关键一步——将训练主动权从人工管道转移至 LLM 自主进化。

数据统计

暂无评论...