清华大学等提出UPGE框架:用统一视角重构大模型后训练在大语言模型(LLM)的训练流程中,“后训练”(post-training)是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类:监督微调(SFT)和强化学习(RL)。前者依赖高质量演示数据,强...新技术# UPGE# 大模型后训练3个月前01220