近日,Anthropic 研究团队在一篇新发布的论文中,对苹果公司 Shojaee 等人(2025)提出的观点进行了系统性反驳。该观点认为:大型推理模型(LRMs)在复杂规划任务中表现出“准确性崩溃”,从而质疑其作为“真正智能模型”的能力。(相关:苹果研究揭示:生成式AI仍无法像人类一样思考)
对此,Claude Opus 的第一作者通过详细分析和实验指出:Shojaee 等人的结论主要源于实验设计的局限性,而非模型本身的推理失败。文章从多个角度展开论证,提出了更具说服力的评估方法建议。
问题背景与争议焦点
问题核心:
Shojaee 等人在论文中声称,当面对需要长期规划的谜题(如 Tower of Hanoi 和 River Crossing)时,大型推理模型的表现随问题规模增加而急剧下降,这种“准确性崩溃”表明它们不具备真正的推理能力。
本文立场:
作者认为,所谓的“崩溃”并非模型推理能力的问题,而是由于以下几个实验设计缺陷造成的:
- 输出 token 限制被误判为推理失败
- 测试了不可解的谜题实例
- 将解决方案长度误作复杂度指标
关键反驳点解析
1. 模型能识别输出限制,并主动调整策略
Shojaee 等人观察到,在解决 Tower of Hanoi 问题时,模型会在达到 token 上限前停止输出。他们将其解释为推理失败。
但作者指出,模型明确表达了继续执行的能力,例如输出:
“The pattern continues, but to avoid making this too long, I'll stop here.”
这说明模型理解整个解决方案的结构,只是因为 token 限制而选择截断输出。这种行为反映的是模型对自身输出边界的认知,而不是推理失败。
2. 测试了无解谜题,导致错误归因于模型
在 River Crossing 实验中,Shojaee 等人测试了 N ≥ 6 的实例。这些实例在船容量为 3 的条件下实际上没有可行解。
然而,他们的评估标准却将模型无法给出答案视为“推理失败”,而事实上:
模型正确地识别出这些问题是无解的。
这表明,模型的行为是合理的,不应被视为失败。相反,它展示了对约束条件的理解和判断能力。
3. 输出 token 限制导致“表观崩溃”
作者进一步量化了问题规模与 token 消耗之间的关系:
- 在给定 token 预算下,Claude-3.7-Sonnet 和 DeepSeek-R1 最多可解 Tower of Hanoi 到 N=7~8
- o3-mini 可支持至 N=8
这意味着,当问题超出上下文限制时,模型并不是“不会解”,而是“写不下”。
因此,“准确性崩溃”本质上是由 token 限制引起的表象,而非推理能力下降。
4. 改变表示方式可恢复性能
为了验证这一点,作者尝试改变问题的表达方式:
- 将 Tower of Hanoi N=15 表示为 Lua 函数,而非详尽移动列表。
- 模型成功生成函数并准确描述了解法逻辑。
这表明,只要解除详尽枚举的要求,模型仍具备完整的推理能力。
5. “组合深度”不能作为复杂度指标
Shojaee 等人使用“组合深度”作为衡量问题难度的标准,作者指出这一指标存在误导性:
- Tower of Hanoi 虽然需要指数级移动步骤,但每一步决策非常简单。
- River Crossing 虽然步骤较少,但涉及复杂的约束满足和搜索。
因此,解决方案长度并不能准确反映问题的计算难度。未来研究应采用更能体现问题本质的复杂度度量。
总结与建议
作者通过系统性的分析与实验,揭示了 Shojaee 等人论文中的几个关键问题:
原论文结论 | 本文反驳 |
---|---|
模型推理能力随问题规模下降 | 实际受限于 token 输出限制 |
模型无法解决某些谜题 | 实际上这些谜题本身不可解 |
解决方案长度越长越难 | 忽视了问题内在结构复杂度差异 |
并提出以下建议供未来研究参考:
- 设计评估时应区分推理能力与输出约束
- 验证所测谜题是否实际可解
- 使用更合理的复杂度度量方法
- 探索不同问题表示方式以提升模型表现