清华大学等提出UPGE框架：用统一视角重构大模型后训练

新技术5个月前发布小马良

146 0

在大语言模型（LLM）的训练流程中，“后训练”（post-training）是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类：监督微调（SFT）和强化学习（RL）。前者依赖高质量演示数据，强调“模仿”；后者通过环境反馈优化策略，注重“探索”。

然而，这两种方法常被视为对立路径——SFT稳定但缺乏创新，RL灵活但训练不稳定。如何融合二者优势，成为提升模型推理能力的重要课题。

近期，来自清华大学、上海AI实验室与微信AI的研究团队提出一个全新视角：SFT与RL并非割裂，而是同一优化过程的不同实现方式。基于这一洞察，他们构建了统一策略梯度估计器（Unified Policy Gradient Estimator, UPGE），并在此基础上推出了自适应训练算法——混合后训练（Hybrid Post-Training, HPT）。

GitHub：https://github.com/TsinghuaC3I/Unify-Post-Training

该工作不仅提供了理论上的统一解释，也在多个数学推理任务中实现了性能突破。

清华大学等提出UPGE框架：用统一视角重构大模型后训练

问题本质：后训练的两大来源与两种路径

后训练的目标是让预训练模型更好地完成特定任务。其数据主要来自两个渠道：

离线数据：人类标注或强模型生成的高质量示范轨迹，常用于监督微调（SFT）。
在线数据：当前模型自行采样的输出轨迹，通常用于强化学习（如PPO、GRPO等）。

传统做法将两者分开处理：先SFT“打基础”，再RL“提能力”。但这种分阶段策略存在明显短板：

SFT无法利用模型自身的探索结果；
RL在早期阶段因采样质量差，容易引入噪声，导致训练不稳定；
二者之间缺乏动态协调机制，难以平衡“利用已有知识”与“探索新解法”。

研究团队认为，问题的关键不在于选择SFT还是RL，而在于能否从统一框架理解它们的本质联系。

理论突破：UPGE——一个可拆解的统一梯度形式

论文的核心贡献是提出了统一策略梯度估计器（UPGE），它将多种后训练方法的更新方向统一为如下形式：

∇J = E[ 掩码 × (优势估计) × (参考策略分母)⁻¹ × (似然梯度) ]

这个公式看似抽象，实则揭示了不同算法之间的内在一致性。UPGE由四个可替换模块构成：

模块	功能说明	不同方法的体现
稳定化掩码（Stabilization Mask）	控制梯度更新范围，防止无效更新	SFT中为全1；RL中可基于动作有效性设计
参考策略分母（Reference Policy Denominator）	提供对比基准，控制方差	SFT使用初始策略；RL使用上一轮策略
优势估计（Advantage Estimate）	衡量动作优劣	SFT中为常数；RL中为奖励减去基线
似然梯度（Likelihood Gradient）	模型参数对输出概率的敏感度	所有方法共用

通过调整这四个组件的实现方式，SFT、PPO、DPO、GRPO等算法均可视为UPGE的特例。例如：

当优势估计设为常数、参考策略固定时，UPGE退化为SFT；
当优势来自蒙特卡洛回报、参考策略为上一轮模型时，即对应标准RL更新。

这一框架打破了SFT与RL的界限，也为设计更灵活的训练策略打开了空间。

算法创新：HPT——动态切换训练信号的混合策略

基于UPGE的理论洞察，团队提出了混合后训练（HPT）算法。其核心思想是：根据模型实时表现，动态决定使用SFT还是RL信号进行更新。

具体机制如下：

在训练过程中持续采样模型输出；
对每个问题，评估当前模型生成解法的质量（如是否通过验证）；
若成功率低于阈值 → 增加SFT权重，借助高质量示范“纠偏”；
若表现良好 → 提高RL权重，鼓励探索更优路径。

这种自适应加权机制实现了两个关键目标：

保留已有能力：避免RL初期噪声破坏已掌握的推理模式；
促进有效探索：当模型具备一定基础后，允许其跳出示范数据限制，寻找新解法。

此外，HPT无需额外标注或复杂调度策略，可直接集成到现有训练流程中。

实验验证：在数学推理任务中全面领先

研究团队在六个数学推理基准和两个分布外（OOD）测试集上验证了HPT的有效性，涵盖Qwen和LLaMA系列多个模型规模。

1. 主流基准表现（以AIME 2024为例）

方法	Qwen2.5-Math-7B (Pass@1)
SFT	25.1
GRPO	19.4
HPT	33.0

HPT相较SFT提升近8个百分点，在其他数学任务（如MATH、AMC）中也保持一致领先。

2. 多模型泛化能力

模型	HPT提升幅度（vs SFT）
Qwen2.5-Math-1.5B	+6.2
Qwen2.5-Math-7B	+7.9
LLaMA-3.1-8B	+5.3

表明HPT不仅适用于特定架构，且在小模型上收益更为显著。

3. 探索能力分析

在Pass@k指标（衡量多轮采样中最优解出现概率）上，HPT显著优于纯SFT和RL方法，说明其在解法多样性与最优性之间取得了更好平衡。

消融实验进一步证实：动态权重机制是性能提升的关键因素，固定权重组合无法达到同等效果。

意义与展望

HPT的价值不仅在于性能提升，更在于它体现了一种新的训练范式转变：

从“分阶段训练”走向“连续自适应学习”。

通过UPGE框架，SFT与RL不再是非此即彼的选择，而是可以根据数据质量和模型状态灵活调配的“训练资源”。这种统一视角有助于构建更高效、更鲁棒的后训练流程。

未来，这一思路可扩展至更多任务场景，如代码生成、对话系统、工具调用等，尤其适合那些需要兼顾稳定性与创新能力的应用。

新技术 # UPGE # 大模型后训练

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

新型文本到图像生成技术GrounDiT：利用DiT实现了无需训练的空间定位能力，实现更精细的用户控制

新技术 # GrounDiT # 文生图模型

1年前

03970

大语言模型真的具备推理能力吗？——RoR-Bench研究揭示真相

大语言模型真的具备推理能力吗？——RoR-Bench研究揭示真相

新技术 # 大语言模型 # 推理能力

10个月前

02460

基于二维高斯分布的图像表示方法Image-GS：通过自适应地分配和优化一组二维高斯分布来重建图像

基于二维高斯分布的图像表示方法Image-GS：通过自适应地分配和优化一组二维高斯分布来重建图像

新技术 # Image-GS # 图像表示方法

6个月前

01830

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

Impossible Videos：通过创建和评估“不可能视频”来挑战和推进视频理解和生成模型的能力

新技术 # AI视频 # Impossible Videos # 不可能视频

11个月前

03940

暂无评论

none

暂无评论...