阿里Qwen项目组推出新型强化学习算法GSPO：用于训练最新 Qwen3 模型

370 0

阿里Qwen项目组推出新型强化学习算法 Group Sequence Policy Optimization (GSPO)，用于训练大型语言模型（LLMs）。与以往基于单个标记（token）重要性比率的算法不同，GSPO 基于序列似然定义重要性比率，并在序列级别进行裁剪、奖励和优化。该算法在训练效率、稳定性和性能方面优于现有的 GRPO 算法，并且在混合专家（MoE）模型的强化学习训练中表现出色，为最新 Qwen3 模型的显著改进提供了支持。

论文：https://arxiv.org/abs/2507.18071

例如，我们正在训练一个语言模型，让它生成数学问题的解答。使用 GSPO，模型会根据整个回答序列的似然性来调整其策略，而不是仅仅基于单个标记。例如，如果一个回答序列在整体上更有可能是正确的，GSPO 会更倾向于奖励这个序列，而不是仅仅关注其中的某个单词或短语。

主要功能

GSPO 的主要功能是通过强化学习优化大型语言模型的训练过程，使其能够更高效地学习复杂的任务，如数学问题求解、编程任务等。它通过序列级别的优化策略，提高了训练的稳定性和效率，同时减少了模型崩溃的风险。

主要特点

基于序列的优化：GSPO 定义了基于序列似然的重要性比率，而不是基于单个标记。这与重要性采样的基本原则一致，减少了训练过程中的高方差噪声。
序列级别的裁剪和奖励：GSPO 在整个序列级别进行裁剪和奖励，而不是在单个标记级别。这使得训练过程更加稳定，减少了因标记级别的波动而导致的模型崩溃。
对 MoE 模型的支持：GSPO 特别适用于 MoE 模型的训练，解决了 MoE 模型在强化学习训练中的稳定性问题，无需复杂的稳定化策略。
简化 RL 基础架构：GSPO 的设计简化了强化学习的基础设施，使其更容易实现和扩展。

工作原理

GSPO 的核心在于其基于序列似然的重要性比率定义和序列级别的优化策略。具体步骤如下：

序列似然的重要性比率：GSPO 使用整个序列的似然比来计算重要性比率，而不是单个标记的似然比。这减少了因标记级别的波动而导致的高方差噪声。
序列级别的裁剪和奖励：GSPO 对整个序列进行裁剪和奖励，而不是对单个标记进行操作。这使得训练过程更加稳定，减少了模型崩溃的风险。
梯度分析：GSPO 的梯度计算基于整个序列的似然比，而不是单个标记的似然比。这使得训练过程更加高效，减少了因标记级别的波动而导致的不稳定。

测试结果

实验表明，GSPO 在训练效率、稳定性和性能方面优于现有的 GRPO 算法。具体结果如下：

训练效率：GSPO 在相同的训练计算量下，能够更快地达到更高的训练精度和基准性能。
稳定性：GSPO 在训练过程中表现出更高的稳定性，尤其是在 MoE 模型的训练中。它解决了 MoE 模型在强化学习训练中的稳定性问题，无需复杂的稳定化策略。
性能提升：GSPO 在多个基准测试中表现出色，包括 AIME'24、LiveCodeBench 和 CodeForces 等。它能够持续改进模型性能，通过增加训练计算量、更新查询集和延长生成长度来实现。