驳“大型推理模型不是真正的智能模型”:Claude Opus第一作者发文指出苹果论文实验设计局限

早报1个月前发布 小马良
60 0

近日,Anthropic 研究团队在一篇新发布的论文中,对苹果公司 Shojaee 等人(2025)提出的观点进行了系统性反驳。该观点认为:大型推理模型(LRMs)在复杂规划任务中表现出“准确性崩溃”,从而质疑其作为“真正智能模型”的能力。(相关:苹果研究揭示:生成式AI仍无法像人类一样思考

对此,Claude Opus 的第一作者通过详细分析和实验指出:Shojaee 等人的结论主要源于实验设计的局限性,而非模型本身的推理失败。文章从多个角度展开论证,提出了更具说服力的评估方法建议。

问题背景与争议焦点

问题核心:

Shojaee 等人在论文中声称,当面对需要长期规划的谜题(如 Tower of Hanoi 和 River Crossing)时,大型推理模型的表现随问题规模增加而急剧下降,这种“准确性崩溃”表明它们不具备真正的推理能力。

本文立场:

作者认为,所谓的“崩溃”并非模型推理能力的问题,而是由于以下几个实验设计缺陷造成的:

  1. 输出 token 限制被误判为推理失败
  2. 测试了不可解的谜题实例
  3. 将解决方案长度误作复杂度指标

关键反驳点解析

1. 模型能识别输出限制,并主动调整策略

Shojaee 等人观察到,在解决 Tower of Hanoi 问题时,模型会在达到 token 上限前停止输出。他们将其解释为推理失败。

但作者指出,模型明确表达了继续执行的能力,例如输出:

“The pattern continues, but to avoid making this too long, I'll stop here.”

这说明模型理解整个解决方案的结构,只是因为 token 限制而选择截断输出。这种行为反映的是模型对自身输出边界的认知,而不是推理失败。

2. 测试了无解谜题,导致错误归因于模型

在 River Crossing 实验中,Shojaee 等人测试了 N ≥ 6 的实例。这些实例在船容量为 3 的条件下实际上没有可行解

然而,他们的评估标准却将模型无法给出答案视为“推理失败”,而事实上:

模型正确地识别出这些问题是无解的。

这表明,模型的行为是合理的,不应被视为失败。相反,它展示了对约束条件的理解和判断能力。

3. 输出 token 限制导致“表观崩溃”

作者进一步量化了问题规模与 token 消耗之间的关系:

  • 在给定 token 预算下,Claude-3.7-Sonnet 和 DeepSeek-R1 最多可解 Tower of Hanoi 到 N=7~8
  • o3-mini 可支持至 N=8

这意味着,当问题超出上下文限制时,模型并不是“不会解”,而是“写不下”。

因此,“准确性崩溃”本质上是由 token 限制引起的表象,而非推理能力下降。

4. 改变表示方式可恢复性能

为了验证这一点,作者尝试改变问题的表达方式:

  • 将 Tower of Hanoi N=15 表示为 Lua 函数,而非详尽移动列表。
  • 模型成功生成函数并准确描述了解法逻辑。

这表明,只要解除详尽枚举的要求,模型仍具备完整的推理能力

5. “组合深度”不能作为复杂度指标

Shojaee 等人使用“组合深度”作为衡量问题难度的标准,作者指出这一指标存在误导性:

  • Tower of Hanoi 虽然需要指数级移动步骤,但每一步决策非常简单。
  • River Crossing 虽然步骤较少,但涉及复杂的约束满足和搜索。

因此,解决方案长度并不能准确反映问题的计算难度。未来研究应采用更能体现问题本质的复杂度度量。

总结与建议

作者通过系统性的分析与实验,揭示了 Shojaee 等人论文中的几个关键问题:

原论文结论本文反驳
模型推理能力随问题规模下降实际受限于 token 输出限制
模型无法解决某些谜题实际上这些谜题本身不可解
解决方案长度越长越难忽视了问题内在结构复杂度差异

并提出以下建议供未来研究参考:

  • 设计评估时应区分推理能力输出约束
  • 验证所测谜题是否实际可解
  • 使用更合理的复杂度度量方法
  • 探索不同问题表示方式以提升模型表现
© 版权声明

相关文章

暂无评论

none
暂无评论...