奖励建模

强化学习（RL）在大语言模型（LLM）的后续训练中已被广泛应用，尤其是在提升模型的推理能力方面。然而，如何在各种领域中为LLM获得准确的奖励信号，仍然是一个关键挑战。论文：https://arxiv...

1年前

03270