UPGE

在大语言模型（LLM）的训练流程中，“后训练”（post-training）是连接预训练与实际应用的关键阶段。当前主流方法主要包括两类：监督微调（SFT）和强化学习（RL）。前者依赖高质量演示数据，强...

7个月前

01690