Hugging Face发布TRL v1.0 :统一大模型后训练工作流,从 SFT 到 DPO/GRPO 一站式解决Hugging Face 正式发布了 TRL (Transformer Reinforcement Learning) v1.0。这标志着该库从一个主要用于学术研究的实验性仓库,正式转型为稳定、生产就...新技术# Hugging Face# TRL v1.04天前0210