Sakana AI 推出 AB-MCTS:让多个前沿模型协作解决复杂推理问题

大语言模型5个月前发布 小马良
240 0

Sakana AI 发布了一项令人瞩目的研究成果:他们开发出一种名为 AB-MCTS(自适应分支蒙特卡洛树搜索) 的新算法。该算法在 ARC-AGI-2 基准测试中表现出色,显著优于单独使用 o4-mini、Gemini-2.5-Pro 或 DeepSeek-R1-0528 等主流模型。

更重要的是,这项研究首次实现了多个前沿 AI 模型的高效协作,为“AI 集体智能”的实现提供了新路径。

什么是 AB-MCTS?

AB-MCTS 是一种推理时扩展算法(Reasoning-Time Scaling),它使 AI 能够像人类一样通过试错不断改进解决方案,并在多模型之间动态分配任务。

简单来说,AB-MCTS 让 AI 在面对复杂问题时不再“单打独斗”,而是像一支由不同专家组成的团队那样协同工作——有时深入优化已有方案,有时重新生成新思路,甚至可以在多个 LLM 之间灵活切换,以发挥各自优势。

推理时扩展:不只是“训练后调用”

当前很多模型都在追求“训练更强”或“参数更大”,但 Sakana AI 的研究指出一个被忽视的方向:推理时如何利用更多计算资源提升性能?

这类似于人类解决问题的方式:我们不会一上来就得出答案,而是反复尝试、修改、验证。AB-MCTS 正是模拟了这一过程,通过高效的搜索机制,让 AI 在推理阶段也能“思考更久”、“试错更多”。

为何需要 AI 协作?

尽管每个大模型都能力出众,但它们各有擅长领域:

  • 有的擅长代码生成
  • 有的在创意写作上表现突出
  • 有的则更适合执行顺序任务

将这些模型看作“AI 专家”,让他们根据问题特性自动分工,就能形成一种集体智能系统。这种系统不仅能弥补单一模型的短板,还能解决那些仅靠一个模型无法完成的问题。

例如,在某个任务中,一个模型提出总体策略,另一个负责编写具体实现代码,第三个再进行优化调整。整个流程就像多人协作的项目团队。

实验结果:30% 的问题被成功解决

研究人员在极具挑战性的 ARC-AGI-2 基准测试 上进行了实验。这个测试旨在评估类似人类的抽象推理能力,长期以来被认为是 AI 难以突破的难题。

实验结果显示:

方法解决率
单一模型(o4-mini)+ 重复采样23%
AB-MCTS(o4-mini)27.5%
Multi-LLM AB-MCTS(o4-mini + Gemini-2.5-Pro + R1-0528)30%+

值得注意的是,虽然 DeepSeek-R1-0528 单独表现不佳,但在 AB-MCTS 中却能与其他模型互补,最终提升了整体效果。

核心技术亮点

🧠 自适应搜索:深度 vs 广度

AB-MCTS 借鉴了 AlphaGo 中使用的 蒙特卡洛树搜索(MCTS),并引入了 汤普森采样(Thompson Sampling)来决定探索方向。

  • 广度优先:生成多个新方案,寻找潜在突破口
  • 深度优先:对已有方案持续优化,逐步完善

通过动态平衡这两种策略,AB-MCTS 能在有限的模型调用次数下,找到最优解。

🤝 多模型协作机制

Multi-LLM AB-MCTS 还新增了一个维度:选择使用哪个模型

系统会根据历史表现动态调整模型权重,优先调用在特定问题上更有效的模型。这种机制使得 AI 团队能够根据问题特性“按需分配人力”,大幅提升效率。

开源工具 TreeQuest

为了让更多开发者和研究人员参与这一方向的研究,Sakana AI 同步开源了 TreeQuest —— 一个用于推理时扩展的树搜索框架。

它具备以下特点:

  • 支持 AB-MCTS 和 Multi-LLM AB-MCTS 算法
  • 提供灵活 API,适配各种任务场景
  • 内置检查点功能,便于长时间运行和恢复
  • 使用 Apache 2.0 协议,完全开源免费

展望未来

AB-MCTS 的出现标志着 AI 推理方式的一次重要演进:

  • 它证明了推理时扩展的巨大潜力
  • 也为构建 AI 集体智能系统提供了可行路径

Sakana AI 表示将继续围绕“进化”与“群体智能”展开研究,探索更强大的 AI 系统架构。

© 版权声明

相关文章

暂无评论

none
暂无评论...