ART

8个月前发布 205 00

ART 的发布标志着智能体训练进入标准化、模块化时代。它不仅简化了训练流程，还通过 RULER 实现了零样本奖励机制，大幅降低了训练门槛。

所在地：

美国

收录时间：

2025-07-19

其他站点:

官方文档

打开网站手机查看

智能体 # ART # 智能体训练

ART

打开网站

由OpenPipe推出，ART（Agent Reinforcement Trainer） 是一个专为训练多步骤智能体（Agent）的开源强化学习框架。它基于 GRPO（Group Relative Policy Optimization） 算法，支持 Qwen、Llama、Kimi 等主流语言模型，旨在提升大语言模型在现实任务中的表现力与稳定性。

ART 为开发者提供了一个模块化、易集成、低门槛的训练系统，适用于从邮件搜索、任务规划到游戏控制等多种场景。

项目亮点

✅ 支持多步骤 Agent 训练：适用于复杂任务流程
✅ 集成 GRPO 强化学习算法：高效提升模型表现
✅ 轻量模型优先：适合用作任务驱动模型（如 Qwen2.5-7B）
✅ 自动奖励机制 RULER：无需手动设计奖励函数
✅ 客户端-服务器架构：便于本地开发与远程训练分离

框架概述

ART 的核心目标是让开发者能够轻松为自己的智能体添加训练能力，从而提升其在多轮任务中的表现。

它通过客户端-服务器架构，将训练流程封装为服务，开发者只需专注于任务逻辑的实现，而无需关心底层训练细节。

为什么选择 ART？

✅ 简单易用的封装接口

提供与 OpenAI 兼容的客户端接口，轻松接入现有代码
抽象训练服务为模块化组件，无需修改业务逻辑即可启用训练

✅ 灵活部署支持

可在本地笔记本运行客户端，服务器自动启动 GPU 环境
支持本地 GPU 训练或远程训练集群部署

✅ 第三方平台集成

与 Weights & Biases（W&B）、Langfuse、OpenPipe 等平台无缝集成
支持日志追踪、可视化分析、性能监控等功能

✅ 可定制与默认配置并存

支持自定义训练参数（如 batch size、学习率等）
提供优化过的默认配置，开箱即用

RULER：无需人工设计的智能奖励机制

RULER（Relative Universal LLM-Elicited Rewards）是 ART 提供的一种零样本奖励生成机制，它利用大语言模型作为“评判者”，自动为智能体轨迹打分。

RULER 的核心优势：

2-3 倍开发效率提升：无需手动设计奖励函数
任务通用性：适用于任何任务，无需额外标注数据或专家反馈
性能优异：在 3/4 的基准测试中，表现优于人工设计奖励
无缝集成：可直接替换传统奖励函数，降低开发成本

训练循环流程

ART 的训练流程分为两个主要阶段：推理与训练，循环执行直至达到预设迭代次数。

🔍 推理阶段

你的代码通过 ART 客户端执行 Agent 工作流（支持并行轨迹采集）。
请求被转发至 ART 服务器，服务器使用 vLLM 运行当前模型的 LoRA。
每次交互（系统、用户、助手）被记录为一条轨迹（Trajectory）。
轨迹完成后，你的代码为其分配一个 奖励值，用于后续训练。

🛠️ 训练阶段

所有轨迹按组提交至服务器。
服务器暂停推理，使用 GRPO 算法进行训练。
新模型被保存为 LoRA，并加载至 vLLM。
推理恢复，进入下一轮训练循环。

📦 支持模型

ART 支持主流大语言模型系列，包括但不限于：

Qwen 系列：Qwen2.5、Qwen3
Llama 系列：Llama3、Llama-3.1
Kimi 系列
其他兼容 LLaMA 架构的模型

数据统计

暂无评论

暂无评论...

ART

项目亮点