腾讯混元项目组推出高效课程强化学习方法FASTCURL：通过逐步扩展上下文窗口的策略，加速了类似 R1 的推理模型的强化学习训练效率，并提升其在复杂推理任务中的性能

34 0

腾讯混元项目组推出提出了一种名为 FASTCURL 的高效课程强化学习方法，通过逐步扩展上下文窗口的策略，加速了类似 R1 的推理模型的强化学习训练效率，并提升了其在复杂推理任务中的性能。

腾讯混元项目组推出高效课程强化学习方法FASTCURL：通过逐步扩展上下文窗口的策略，加速了类似 R1 的推理模型的强化学习训练效率，并提升其在复杂推理任务中的性能

它们还发布了一个慢思考的推理模型FastCuRL-1.5B-Preview，在训练步数增加50%的情况下，其性能超过了之前的SoTA DeepScaleR-1.5B-Preview。其采用了一种新的课程引导的迭代延长强化学习方法来训练DeepSeek-R1-Distill-Qwen-1.5B，并观察到随着训练步数的增加，性能持续提升。

GitHub：https://github.com/nick7nlp/FastCuRL
模型：https://huggingface.co/Nickyang/FastCuRL-1.5B-Preview

例如，有一个复杂的数学问题，需要模型生成长链条的推理过程来解决。传统的强化学习训练方法可能会因为上下文窗口的限制而截断推理过程，导致训练效率低下。FASTCURL 通过将训练数据根据输入提示的长度进行分段，并逐步扩展上下文窗口长度，使得模型能够更高效地学习长链条的推理过程。

主要功能

加速训练效率：通过逐步扩展上下文窗口的课程强化学习方法，显著减少了训练所需的步骤和计算资源。
提升推理性能：在多个复杂推理任务的基准测试中，FASTCURL 训练的模型表现优于现有的方法，尤其是在长链条推理任务中。
高效利用计算资源：所有训练阶段仅使用单个节点的 8 个 GPU，相比其他方法大幅减少了计算资源消耗。

主要特点

长度感知的数据分段：根据输入提示的长度将训练数据分为短、中、长三个级别，以区分需要长链条推理和短链条推理的数据样本。
逐步扩展上下文窗口：在训练过程中逐步增加上下文窗口的长度，从短到长逐步训练模型，使其能够更好地处理长链条推理任务。
课程强化学习：采用课程学习的方法，先让模型学习简单的任务，然后逐步过渡到复杂的任务，最后综合所有任务进行训练。
高效训练策略：通过优化训练过程，FASTCURL 在仅使用 50% 训练步骤的情况下，超越了现有的 1.5B 参数模型的性能。

工作原理

长度感知的数据分段：分析训练数据的输入提示长度分布，将数据分为短、中、长三个级别。短级别数据包含较短的输入提示，适合短链条推理；长级别数据包含较长的输入提示，适合长链条推理。
逐步扩展上下文窗口：训练分为四个阶段：
- 第一阶段：使用短级别数据和 8K 上下文窗口训练模型，优化生成简洁推理的能力。
- 第二阶段：将上下文窗口扩展到 16K，使用短+长级别数据训练模型，进一步提升推理能力。
- 第三阶段：使用长级别数据和 16K 上下文窗口训练模型，专注于复杂任务的推理。
- 第四阶段：再次使用短+长级别数据和 16K 上下文窗口训练模型，综合提升整体性能。
课程强化学习：通过逐步增加任务的复杂性，让模型逐步适应长链条推理任务，避免一开始就使用长上下文窗口导致的效率低下。