让语言模型“集体进化”：Gensyn推出去中心化强化学习新算法 SAPO

大语言模型7个月前发布小马良

114 0

在提升语言模型推理能力的道路上，传统方法往往依赖大量人工标注数据进行监督微调（SFT），或集中式强化学习系统完成后训练。然而，这类方式成本高昂、扩展困难，且对硬件资源要求严苛。

最近，AI初创公司 Gensyn 发布了一项突破性研究 —— SAPO（Swarm sAmpling Policy Optimization），一种全新的去中心化分布式强化学习算法，旨在通过模型间的“经验共享”，让语言模型在无需监督数据的情况下，自主提升复杂推理能力。

GitHub：https://github.com/gensyn-ai/rl-swarm
模型：https://huggingface.co/collections/Gensyn/rl-swarm-67fc7925df42ff29499e6056

这项工作不仅挑战了当前主流的集中式训练范式，也为未来开放协作式的AI训练提供了可行路径。

让语言模型“集体进化”：Gensyn推出去中心化强化学习新算法 SAPO

核心理念：用“群体智慧”推动个体成长

SAPO 的核心思想源自强化学习中的“试错学习”机制，但它不再局限于单个模型在封闭环境中的自我迭代，而是将多个独立运行的语言模型连接成一个去中心化的网络（swarm），彼此交换解码结果（即 rollouts），从而实现知识的跨节点传播。

类比来看：就像一群学生各自解题，做完后互相分享思路。哪怕某人卡住了，也可能从别人的解法中获得启发，突然“顿悟”。

这种设计的关键优势在于：

不需要统一的数据集或同步参数；
每个节点可使用不同硬件、不同模型架构；
共享的是文本级输出（rollout），而非梯度或权重，通信开销极低。

SAPO 是如何工作的？

整个流程围绕四个关键步骤循环推进：

1. 节点独立生成推理轨迹

每个节点拥有自己的语言模型 $\pi_n$ 和奖励模型 $\rho_n$，从本地任务数据集中采样问题，并让模型生成完整的回答过程（称为 rollout）。例如：“请解这个代数方程：2x + 3 = 7”，然后记录模型一步步推导的过程。

2. 将部分 rollout 共享至群体池

每个节点选择一部分高质量或新颖的 rollout 上报到公共共享池中。这些是纯文本序列，不包含任何模型内部状态或梯度信息。

3. 从群体中采样外部经验

节点在构建训练样本时，不仅使用自己生成的 rollout，还会从共享池中随机采样其他节点的经验。比如配置为 4 local / 4 external，表示每批训练混合 4 条本地和 4 条外部轨迹。

4. 基于奖励信号更新策略

利用本地奖励模型对所有 rollout 打分（如是否正确解答、推理是否连贯），再通过标准策略梯度算法（如 PPO 或 GRPO）更新自身模型参数。

这一过程持续迭代，形成一个自驱动的学习闭环。

为什么 SAPO 更高效？三大特性解析

特性	说明
✅ 去中心化 & 异步执行	无主控节点，各模型独立运行，避免传统分布式RL中的同步瓶颈与单点故障风险。
✅ 硬件与架构无关	支持消费级设备（如笔记本电脑）参与，只要能运行基础语言模型即可贡献计算力。
✅ 高效样本利用	通过经验复用，显著提升样本效率 —— 别人的“失败尝试”也能成为你的学习素材。

更重要的是，SAPO 是一个元算法框架，可以嵌套任意策略梯度方法（如 PPO），并与现有训练流程无缝集成。

实验验证：94% 的性能跃升来自协同效应

研究人员在 ReasoningGYM 数据集上进行了受控实验，该基准涵盖代数、逻辑推理、图论等多个需要深层思维的任务领域。

实验设置：

使用 8 个 Qwen2.5-0.5B 模型作为独立节点；
各自运行 SAPO，在不同本地/外部 rollout 比例下对比表现；
衡量指标为累积奖励（cumulative reward），反映推理质量。

主要结果：

配置（local/external）	相比基线的奖励提升
8/0（无共享，基线）	0%
6/2	+62%
4/4	+94%
2/6	+78%，但波动剧烈

✅ 最佳平衡点出现在 4/4 配置：既保留足够的本地探索能力，又充分吸收外部经验。

⚠️ 过度依赖外部 rollout（如 2/6）会导致学习不稳定，出现“学会又忘掉”的震荡现象 —— 这提示我们：共享需节制，自主探索仍不可替代。

真实场景验证：开源社区中的实时 swarm

除了实验室环境，Gensyn 还发起了一场开放式测试，邀请数千名社区成员以个人设备加入 SAPO 群体。

初步结果显示：

中等规模模型在接入 swarm 后，推理准确率稳定高于孤立训练；
已有较强能力的高端模型增益较小，表明未来可通过引入加权采样、可信度过滤机制进一步优化收益分配；
整体训练速度加快，单位算力产出更高。

这证明 SAPO 在真实异构环境中具备可行性与鲁棒性。

大语言模型 # SAPO # 强化学习

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

OPPO AI实验室推出新范式Chain-of-Agents（CoA）：用于在单个模型中实现多智能体系统的复杂问题解决能力

大语言模型 # Chain-of-Agents # CoA # OPPO AI实验室

8个月前

01630

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

A-M-team推出32B密集语言模型AM-Thinking-v1：专注增强推理能力

大语言模型 # AM-Thinking-v1 # 推理模型

11个月前

05030

智谱AI正式推出 GLM 系列最新旗舰大模型GLM-4.5 系列：统一推理、编码与代理的全能旗舰模型

智谱AI正式推出 GLM 系列最新旗舰大模型GLM-4.5 系列：统一推理、编码与代理的全能旗舰模型

大语言模型 # GLM-4.5 # GLM-4.5-Air # 智谱AI

8个月前

04710

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

Intelligent Internet 发布两款新型搜索推理模型：II-Search-4B 与 II-Search-CIR 4B

大语言模型 # II-Search-4B # II-Search-CIR 4B # Intelligent Internet

8个月前

02280

暂无评论

none

暂无评论...