清华大学等提出UPGE框架:用统一视角重构大模型后训练

新技术3个月前发布 小马良
122 0

在大语言模型(LLM)的训练流程中,“后训练”(post-training)是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类:监督微调(SFT)和强化学习(RL)。前者依赖高质量演示数据,强调“模仿”;后者通过环境反馈优化策略,注重“探索”。

然而,这两种方法常被视为对立路径——SFT稳定但缺乏创新,RL灵活但训练不稳定。如何融合二者优势,成为提升模型推理能力的重要课题。

近期,来自清华大学、上海AI实验室与微信AI的研究团队提出一个全新视角:SFT与RL并非割裂,而是同一优化过程的不同实现方式。基于这一洞察,他们构建了统一策略梯度估计器(Unified Policy Gradient Estimator, UPGE),并在此基础上推出了自适应训练算法——混合后训练(Hybrid Post-Training, HPT)。

该工作不仅提供了理论上的统一解释,也在多个数学推理任务中实现了性能突破。

清华大学等提出UPGE框架:用统一视角重构大模型后训练

问题本质:后训练的两大来源与两种路径

后训练的目标是让预训练模型更好地完成特定任务。其数据主要来自两个渠道:

  • 离线数据:人类标注或强模型生成的高质量示范轨迹,常用于监督微调(SFT)。
  • 在线数据:当前模型自行采样的输出轨迹,通常用于强化学习(如PPO、GRPO等)。

传统做法将两者分开处理:先SFT“打基础”,再RL“提能力”。但这种分阶段策略存在明显短板:

  • SFT无法利用模型自身的探索结果;
  • RL在早期阶段因采样质量差,容易引入噪声,导致训练不稳定;
  • 二者之间缺乏动态协调机制,难以平衡“利用已有知识”与“探索新解法”。

研究团队认为,问题的关键不在于选择SFT还是RL,而在于能否从统一框架理解它们的本质联系

理论突破:UPGE——一个可拆解的统一梯度形式

论文的核心贡献是提出了统一策略梯度估计器(UPGE),它将多种后训练方法的更新方向统一为如下形式:

∇J = E[ 掩码 × (优势估计) × (参考策略分母)⁻¹ × (似然梯度) ]

这个公式看似抽象,实则揭示了不同算法之间的内在一致性。UPGE由四个可替换模块构成:

模块功能说明不同方法的体现
稳定化掩码(Stabilization Mask)控制梯度更新范围,防止无效更新SFT中为全1;RL中可基于动作有效性设计
参考策略分母(Reference Policy Denominator)提供对比基准,控制方差SFT使用初始策略;RL使用上一轮策略
优势估计(Advantage Estimate)衡量动作优劣SFT中为常数;RL中为奖励减去基线
似然梯度(Likelihood Gradient)模型参数对输出概率的敏感度所有方法共用

通过调整这四个组件的实现方式,SFT、PPO、DPO、GRPO等算法均可视为UPGE的特例。例如:

  • 当优势估计设为常数、参考策略固定时,UPGE退化为SFT;
  • 当优势来自蒙特卡洛回报、参考策略为上一轮模型时,即对应标准RL更新。

这一框架打破了SFT与RL的界限,也为设计更灵活的训练策略打开了空间。

算法创新:HPT——动态切换训练信号的混合策略

基于UPGE的理论洞察,团队提出了混合后训练(HPT)算法。其核心思想是:根据模型实时表现,动态决定使用SFT还是RL信号进行更新

具体机制如下:

  1. 在训练过程中持续采样模型输出;
  2. 对每个问题,评估当前模型生成解法的质量(如是否通过验证);
  3. 若成功率低于阈值 → 增加SFT权重,借助高质量示范“纠偏”;
  4. 若表现良好 → 提高RL权重,鼓励探索更优路径。

这种自适应加权机制实现了两个关键目标:

  • 保留已有能力:避免RL初期噪声破坏已掌握的推理模式;
  • 促进有效探索:当模型具备一定基础后,允许其跳出示范数据限制,寻找新解法。

此外,HPT无需额外标注或复杂调度策略,可直接集成到现有训练流程中。

实验验证:在数学推理任务中全面领先

研究团队在六个数学推理基准和两个分布外(OOD)测试集上验证了HPT的有效性,涵盖Qwen和LLaMA系列多个模型规模。

1. 主流基准表现(以AIME 2024为例)

方法Qwen2.5-Math-7B (Pass@1)
SFT25.1
GRPO19.4
HPT33.0

HPT相较SFT提升近8个百分点,在其他数学任务(如MATH、AMC)中也保持一致领先。

2. 多模型泛化能力

模型HPT提升幅度(vs SFT)
Qwen2.5-Math-1.5B+6.2
Qwen2.5-Math-7B+7.9
LLaMA-3.1-8B+5.3

表明HPT不仅适用于特定架构,且在小模型上收益更为显著。

3. 探索能力分析

在Pass@k指标(衡量多轮采样中最优解出现概率)上,HPT显著优于纯SFT和RL方法,说明其在解法多样性与最优性之间取得了更好平衡

消融实验进一步证实:动态权重机制是性能提升的关键因素,固定权重组合无法达到同等效果。

意义与展望

HPT的价值不仅在于性能提升,更在于它体现了一种新的训练范式转变:

从“分阶段训练”走向“连续自适应学习”

通过UPGE框架,SFT与RL不再是非此即彼的选择,而是可以根据数据质量和模型状态灵活调配的“训练资源”。这种统一视角有助于构建更高效、更鲁棒的后训练流程。

未来,这一思路可扩展至更多任务场景,如代码生成、对话系统、工具调用等,尤其适合那些需要兼顾稳定性与创新能力的应用。

© 版权声明

相关文章

暂无评论

none
暂无评论...