VAPO

字节跳动Seed研究团队发布了一项名为 VAPO 的强化学习训练框架。这一框架专为提升大语言模型（LLM）在复杂、冗长任务中的推理能力而设计，特别是在数学推理和长链推理（Long Chain-of-T...

12个月前

05880