GSPO

共 1 篇文章

排序

发布更新浏览点赞

阿里Qwen项目组推出新型强化学习算法GSPO：用于训练最新 Qwen3 模型

阿里Qwen项目组推出新型强化学习算法GSPO：用于训练最新 Qwen3 模型

阿里Qwen项目组推出新型强化学习算法 Group Sequence Policy Optimization (GSPO)，用于训练大型语言模型（LLMs）。与以往基于单个标记（token）重要性比率...

新技术 # GSPO # Qwen3

8个月前

03800