腾讯混元项目组推出高效课程强化学习方法FASTCURL:通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升其在复杂推理任务中的性能
腾讯混元项目组推出提出了一种名为 FASTCURL 的高效课程强化学习方法,通过逐步扩展上下文窗口的策略,加速了类似 R1 的推理模型的强化学习训练效率,并提升了其在复杂推理任务中的性能。

它们还发布了一个慢思考的推理模型FastCuRL-1.5B-Preview,在训练步数增加50%的情况下,其性能超过了之前的SoTA DeepScaleR-1.5B-Preview。其采用了一种新的课程引导的迭代延长强化学习方法来训练DeepSeek-R1-Distill-Qwen-1.5B,并观察到随着训练步数的增加,性能持续提升。
例如,有一个复杂的数学问题,需要模型生成长链条的推理过程来解决。传统的强化学习训练方法可能会因为上下文窗口的限制而截断推理过程,导致训练效率低下。FASTCURL 通过将训练数据根据输入提示的长度进行分段,并逐步扩展上下文窗口长度,使得模型能够更高效地学习长链条的推理过程。

主要功能
- 加速训练效率:通过逐步扩展上下文窗口的课程强化学习方法,显著减少了训练所需的步骤和计算资源。
- 提升推理性能:在多个复杂推理任务的基准测试中,FASTCURL 训练的模型表现优于现有的方法,尤其是在长链条推理任务中。
- 高效利用计算资源:所有训练阶段仅使用单个节点的 8 个 GPU,相比其他方法大幅减少了计算资源消耗。
主要特点
- 长度感知的数据分段:根据输入提示的长度将训练数据分为短、中、长三个级别,以区分需要长链条推理和短链条推理的数据样本。
- 逐步扩展上下文窗口:在训练过程中逐步增加上下文窗口的长度,从短到长逐步训练模型,使其能够更好地处理长链条推理任务。
- 课程强化学习:采用课程学习的方法,先让模型学习简单的任务,然后逐步过渡到复杂的任务,最后综合所有任务进行训练。
- 高效训练策略:通过优化训练过程,FASTCURL 在仅使用 50% 训练步骤的情况下,超越了现有的 1.5B 参数模型的性能。
工作原理
- 长度感知的数据分段:分析训练数据的输入提示长度分布,将数据分为短、中、长三个级别。短级别数据包含较短的输入提示,适合短链条推理;长级别数据包含较长的输入提示,适合长链条推理。
- 逐步扩展上下文窗口:训练分为四个阶段:
- 第一阶段:使用短级别数据和 8K 上下文窗口训练模型,优化生成简洁推理的能力。
- 第二阶段:将上下文窗口扩展到 16K,使用短+长级别数据训练模型,进一步提升推理能力。
- 第三阶段:使用长级别数据和 16K 上下文窗口训练模型,专注于复杂任务的推理。
- 第四阶段:再次使用短+长级别数据和 16K 上下文窗口训练模型,综合提升整体性能。
- 课程强化学习:通过逐步增加任务的复杂性,让模型逐步适应长链条推理任务,避免一开始就使用长上下文窗口导致的效率低下。
应用场景
- 数学推理:在解决复杂的数学问题时,FASTCURL 训练的模型能够生成更准确、更高效的长链条推理过程,适用于数学竞赛和高级数学问题的解决。
- 科学问题解答:在处理复杂的科学问题时,模型能够生成详细的推理过程,帮助研究人员和学生更好地理解和解决科学问题。
- 逻辑推理任务:在需要长链条逻辑推理的任务中,FASTCURL 训练的模型能够提供更准确的推理路径,提升任务的解决效率。
- 教育领域:在教育领域,FASTCURL 训练的模型可以作为智能辅导工具,帮助学生逐步学习复杂的推理过程,提升解题能力。
通过这些功能和特点,FASTCURL 为训练高效推理模型提供了一种新的方法,能够在保持高性能的同时显著减少计算资源的消耗。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...