在提升语言模型推理能力的道路上,传统方法往往依赖大量人工标注数据进行监督微调(SFT),或集中式强化学习系统完成后训练。然而,这类方式成本高昂、扩展困难,且对硬件资源要求严苛。
最近,AI初创公司 Gensyn 发布了一项突破性研究 —— SAPO(Swarm sAmpling Policy Optimization),一种全新的去中心化分布式强化学习算法,旨在通过模型间的“经验共享”,让语言模型在无需监督数据的情况下,自主提升复杂推理能力。
- GitHub:https://github.com/gensyn-ai/rl-swarm
- 模型:https://huggingface.co/collections/Gensyn/rl-swarm-67fc7925df42ff29499e6056
这项工作不仅挑战了当前主流的集中式训练范式,也为未来开放协作式的AI训练提供了可行路径。

核心理念:用“群体智慧”推动个体成长
SAPO 的核心思想源自强化学习中的“试错学习”机制,但它不再局限于单个模型在封闭环境中的自我迭代,而是将多个独立运行的语言模型连接成一个去中心化的网络(swarm),彼此交换解码结果(即 rollouts),从而实现知识的跨节点传播。
类比来看:就像一群学生各自解题,做完后互相分享思路。哪怕某人卡住了,也可能从别人的解法中获得启发,突然“顿悟”。
这种设计的关键优势在于:
- 不需要统一的数据集或同步参数;
- 每个节点可使用不同硬件、不同模型架构;
- 共享的是文本级输出(rollout),而非梯度或权重,通信开销极低。
SAPO 是如何工作的?
整个流程围绕四个关键步骤循环推进:
1. 节点独立生成推理轨迹
每个节点拥有自己的语言模型 $\pi_n$ 和奖励模型 $\rho_n$,从本地任务数据集中采样问题,并让模型生成完整的回答过程(称为 rollout)。例如:“请解这个代数方程:2x + 3 = 7”,然后记录模型一步步推导的过程。
2. 将部分 rollout 共享至群体池
每个节点选择一部分高质量或新颖的 rollout 上报到公共共享池中。这些是纯文本序列,不包含任何模型内部状态或梯度信息。
3. 从群体中采样外部经验
节点在构建训练样本时,不仅使用自己生成的 rollout,还会从共享池中随机采样其他节点的经验。比如配置为 4 local / 4 external,表示每批训练混合 4 条本地和 4 条外部轨迹。
4. 基于奖励信号更新策略
利用本地奖励模型对所有 rollout 打分(如是否正确解答、推理是否连贯),再通过标准策略梯度算法(如 PPO 或 GRPO)更新自身模型参数。
这一过程持续迭代,形成一个自驱动的学习闭环。
为什么 SAPO 更高效?三大特性解析
| 特性 | 说明 |
|---|---|
| ✅ 去中心化 & 异步执行 | 无主控节点,各模型独立运行,避免传统分布式RL中的同步瓶颈与单点故障风险。 |
| ✅ 硬件与架构无关 | 支持消费级设备(如笔记本电脑)参与,只要能运行基础语言模型即可贡献计算力。 |
| ✅ 高效样本利用 | 通过经验复用,显著提升样本效率 —— 别人的“失败尝试”也能成为你的学习素材。 |
更重要的是,SAPO 是一个元算法框架,可以嵌套任意策略梯度方法(如 PPO),并与现有训练流程无缝集成。
实验验证:94% 的性能跃升来自协同效应
研究人员在 ReasoningGYM 数据集上进行了受控实验,该基准涵盖代数、逻辑推理、图论等多个需要深层思维的任务领域。
实验设置:
- 使用 8 个 Qwen2.5-0.5B 模型作为独立节点;
- 各自运行 SAPO,在不同本地/外部 rollout 比例下对比表现;
- 衡量指标为累积奖励(cumulative reward),反映推理质量。
主要结果:
| 配置(local/external) | 相比基线的奖励提升 |
|---|---|
| 8/0(无共享,基线) | 0% |
| 6/2 | +62% |
| 4/4 | +94% |
| 2/6 | +78%,但波动剧烈 |
✅ 最佳平衡点出现在 4/4 配置:既保留足够的本地探索能力,又充分吸收外部经验。
⚠️ 过度依赖外部 rollout(如 2/6)会导致学习不稳定,出现“学会又忘掉”的震荡现象 —— 这提示我们:共享需节制,自主探索仍不可替代。
真实场景验证:开源社区中的实时 swarm
除了实验室环境,Gensyn 还发起了一场开放式测试,邀请数千名社区成员以个人设备加入 SAPO 群体。
初步结果显示:
- 中等规模模型在接入 swarm 后,推理准确率稳定高于孤立训练;
- 已有较强能力的高端模型增益较小,表明未来可通过引入加权采样、可信度过滤机制进一步优化收益分配;
- 整体训练速度加快,单位算力产出更高。
这证明 SAPO 在真实异构环境中具备可行性与鲁棒性。















