Sakana AI 推出 AB-MCTS：让多个前沿模型协作解决复杂推理问题

352 0

Sakana AI 发布了一项令人瞩目的研究成果：他们开发出一种名为 AB-MCTS（自适应分支蒙特卡洛树搜索） 的新算法。该算法在 ARC-AGI-2 基准测试中表现出色，显著优于单独使用 o4-mini、Gemini-2.5-Pro 或 DeepSeek-R1-0528 等主流模型。

Algorithm Implementation: https://github.com/SakanaAI/treequest
ARC-AGI-2 Experiment Code: https://github.com/SakanaAI/ab-mcts-arc2

更重要的是，这项研究首次实现了多个前沿 AI 模型的高效协作，为“AI 集体智能”的实现提供了新路径。

什么是 AB-MCTS？

AB-MCTS 是一种推理时扩展算法（Reasoning-Time Scaling），它使 AI 能够像人类一样通过试错不断改进解决方案，并在多模型之间动态分配任务。

简单来说，AB-MCTS 让 AI 在面对复杂问题时不再“单打独斗”，而是像一支由不同专家组成的团队那样协同工作——有时深入优化已有方案，有时重新生成新思路，甚至可以在多个 LLM 之间灵活切换，以发挥各自优势。

推理时扩展：不只是“训练后调用”

当前很多模型都在追求“训练更强”或“参数更大”，但 Sakana AI 的研究指出一个被忽视的方向：推理时如何利用更多计算资源提升性能？

这类似于人类解决问题的方式：我们不会一上来就得出答案，而是反复尝试、修改、验证。AB-MCTS 正是模拟了这一过程，通过高效的搜索机制，让 AI 在推理阶段也能“思考更久”、“试错更多”。

为何需要 AI 协作？

尽管每个大模型都能力出众，但它们各有擅长领域：

有的擅长代码生成
有的在创意写作上表现突出
有的则更适合执行顺序任务

将这些模型看作“AI 专家”，让他们根据问题特性自动分工，就能形成一种集体智能系统。这种系统不仅能弥补单一模型的短板，还能解决那些仅靠一个模型无法完成的问题。

例如，在某个任务中，一个模型提出总体策略，另一个负责编写具体实现代码，第三个再进行优化调整。整个流程就像多人协作的项目团队。

实验结果：30% 的问题被成功解决

研究人员在极具挑战性的 ARC-AGI-2 基准测试 上进行了实验。这个测试旨在评估类似人类的抽象推理能力，长期以来被认为是 AI 难以突破的难题。

实验结果显示：

方法	解决率
单一模型（o4-mini）+ 重复采样	23%
AB-MCTS（o4-mini）	27.5%
Multi-LLM AB-MCTS（o4-mini + Gemini-2.5-Pro + R1-0528）	30%+

值得注意的是，虽然 DeepSeek-R1-0528 单独表现不佳，但在 AB-MCTS 中却能与其他模型互补，最终提升了整体效果。

核心技术亮点

🧠 自适应搜索：深度 vs 广度

AB-MCTS 借鉴了 AlphaGo 中使用的 蒙特卡洛树搜索（MCTS），并引入了 汤普森采样（Thompson Sampling）来决定探索方向。

广度优先：生成多个新方案，寻找潜在突破口
深度优先：对已有方案持续优化，逐步完善

通过动态平衡这两种策略，AB-MCTS 能在有限的模型调用次数下，找到最优解。

🤝 多模型协作机制

Multi-LLM AB-MCTS 还新增了一个维度：选择使用哪个模型。

系统会根据历史表现动态调整模型权重，优先调用在特定问题上更有效的模型。这种机制使得 AI 团队能够根据问题特性“按需分配人力”，大幅提升效率。

开源工具 TreeQuest

为了让更多开发者和研究人员参与这一方向的研究，Sakana AI 同步开源了 TreeQuest —— 一个用于推理时扩展的树搜索框架。

它具备以下特点：

支持 AB-MCTS 和 Multi-LLM AB-MCTS 算法
提供灵活 API，适配各种任务场景
内置检查点功能，便于长时间运行和恢复
使用 Apache 2.0 协议，完全开源免费

展望未来

AB-MCTS 的出现标志着 AI 推理方式的一次重要演进：

它证明了推理时扩展的巨大潜力
也为构建 AI 集体智能系统提供了可行路径

Sakana AI 表示将继续围绕“进化”与“群体智能”展开研究，探索更强大的 AI 系统架构。

大语言模型 # AB-MCTS # Sakana AI

文章版权归作者所有，未经允许请勿转载。

MiniMax正式发布MiniMax M2.5 ：更快、更强、更智能，专为现实生产力打造

大语言模型早报 # MiniMax # MiniMax M2.5

4周前

02790

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

大语言模型 # KernelLLM # Llama 3.1 Instruct # Meta

10个月前

01380

SGP-Gen ：用强化学习提升大模型生成 SVG 图像的能力

大语言模型 # SGP-Gen # SVG 图像

6个月前

02670

智谱发布 GLM-4.6：200K 上下文、30% 更省，专为编程优化

大语言模型 # GLM-4.6 # 智谱

5个月前

0770

暂无评论

暂无评论...

Sakana AI 推出 AB-MCTS：让多个前沿模型协作解决复杂推理问题

什么是 AB-MCTS？

推理时扩展：不只是“训练后调用”

为何需要 AI 协作？

实验结果：30% 的问题被成功解决

核心技术亮点

🧠 自适应搜索：深度 vs 广度

🤝 多模型协作机制

开源工具 TreeQuest

展望未来

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

华为正式开源盘古大模型与昇腾推理技术

相关文章

MiniMax正式发布MiniMax M2.5 ：更快、更强、更智能，专为现实生产力打造

Meta推出基于 Llama 3.1 Instruct的大语言模型KernelLLM：专注于使用 Triton 编写高效GPU内核的任务

SGP-Gen ：用强化学习提升大模型生成 SVG 图像的能力

智谱发布 GLM-4.6：200K 上下文、30% 更省，专为编程优化

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

零成本尝鲜 OpenClaw：一部安卓手机就能跑起本地 AI 助手

LTX-2.3 提示词终极指南：从“抽卡”到“导演”，解锁原生视频生成的掌控力

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

Sakana AI 推出 AB-MCTS：让多个前沿模型协作解决复杂推理问题

什么是 AB-MCTS？

推理时扩展：不只是“训练后调用”

为何需要 AI 协作？

实验结果：30% 的问题被成功解决

核心技术亮点

🧠 自适应搜索：深度 vs 广度

🤝 多模型协作机制

开源工具 TreeQuest

展望未来

Kurma AI专为水产养殖领域打造的通用语言模型AQUA-7B和AQUA-1B：以生成式 AI 重塑美国水产养殖业

华为正式开源盘古大模型与昇腾推理技术

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw