驳“大型推理模型不是真正的智能模型”：Claude Opus第一作者发文指出苹果论文实验设计局限

205 0

近日，Anthropic 研究团队在一篇新发布的论文中，对苹果公司 Shojaee 等人（2025）提出的观点进行了系统性反驳。该观点认为：大型推理模型（LRMs）在复杂规划任务中表现出“准确性崩溃”，从而质疑其作为“真正智能模型”的能力。（相关：苹果研究揭示：生成式AI仍无法像人类一样思考）

论文地址：https://www.arxiv.org/abs/2506.09250

对此，Claude Opus 的第一作者通过详细分析和实验指出：Shojaee 等人的结论主要源于实验设计的局限性，而非模型本身的推理失败。文章从多个角度展开论证，提出了更具说服力的评估方法建议。

问题背景与争议焦点

问题核心：

Shojaee 等人在论文中声称，当面对需要长期规划的谜题（如 Tower of Hanoi 和 River Crossing）时，大型推理模型的表现随问题规模增加而急剧下降，这种“准确性崩溃”表明它们不具备真正的推理能力。

本文立场：

作者认为，所谓的“崩溃”并非模型推理能力的问题，而是由于以下几个实验设计缺陷造成的：

输出 token 限制被误判为推理失败
测试了不可解的谜题实例
将解决方案长度误作复杂度指标

关键反驳点解析

1. 模型能识别输出限制，并主动调整策略

Shojaee 等人观察到，在解决 Tower of Hanoi 问题时，模型会在达到 token 上限前停止输出。他们将其解释为推理失败。

但作者指出，模型明确表达了继续执行的能力，例如输出：

“The pattern continues, but to avoid making this too long, I'll stop here.”

这说明模型理解整个解决方案的结构，只是因为 token 限制而选择截断输出。这种行为反映的是模型对自身输出边界的认知，而不是推理失败。

2. 测试了无解谜题，导致错误归因于模型

在 River Crossing 实验中，Shojaee 等人测试了 N ≥ 6 的实例。这些实例在船容量为 3 的条件下实际上没有可行解。

然而，他们的评估标准却将模型无法给出答案视为“推理失败”，而事实上：

模型正确地识别出这些问题是无解的。

这表明，模型的行为是合理的，不应被视为失败。相反，它展示了对约束条件的理解和判断能力。

3. 输出 token 限制导致“表观崩溃”

作者进一步量化了问题规模与 token 消耗之间的关系：

在给定 token 预算下，Claude-3.7-Sonnet 和 DeepSeek-R1 最多可解 Tower of Hanoi 到 N=7~8
o3-mini 可支持至 N=8

这意味着，当问题超出上下文限制时，模型并不是“不会解”，而是“写不下”。

因此，“准确性崩溃”本质上是由 token 限制引起的表象，而非推理能力下降。

4. 改变表示方式可恢复性能

为了验证这一点，作者尝试改变问题的表达方式：

将 Tower of Hanoi N=15 表示为 Lua 函数，而非详尽移动列表。
模型成功生成函数并准确描述了解法逻辑。

这表明，只要解除详尽枚举的要求，模型仍具备完整的推理能力。

5. “组合深度”不能作为复杂度指标

Shojaee 等人使用“组合深度”作为衡量问题难度的标准，作者指出这一指标存在误导性：

Tower of Hanoi 虽然需要指数级移动步骤，但每一步决策非常简单。
River Crossing 虽然步骤较少，但涉及复杂的约束满足和搜索。

因此，解决方案长度并不能准确反映问题的计算难度。未来研究应采用更能体现问题本质的复杂度度量。

总结与建议

作者通过系统性的分析与实验，揭示了 Shojaee 等人论文中的几个关键问题：

原论文结论	本文反驳
模型推理能力随问题规模下降	实际受限于 token 输出限制
模型无法解决某些谜题	实际上这些谜题本身不可解
解决方案长度越长越难	忽视了问题内在结构复杂度差异

并提出以下建议供未来研究参考：