随着大语言模型(LLMs)在各种任务上的表现越来越接近人类水平,人们开始质疑这些模型是否真的具备人类意义上的推理能力,还是仅仅是在重复训练过程中见过的解决方案。
为了研究这一问题,字节跳动和伊利诺伊大学香槟分校的研究人员发布论文,探讨当前最先进的大语言模型(LLMs)在处理小学水平的推理问题时,是否会过度依赖记忆而非真正的推理能力。研究者们提出了一个名为 RoR-Bench 的多模态基准测试,用于检测 LLMs 在面对条件细微变化时是否只是在背诵解决方案,而不是进行实际的推理。

该基准测试包含 158 对文本问题和 57 对图像问题,每对问题由一个原始问题和一个条件细微变化的变体组成。这些变体问题在表面上与原始问题相似,但关键条件的改变导致它们需要完全不同的解决方案。、
例如,一个原始问题可能是:“两辆汽车从相距 300 公里的两个城市同时出发,相向而行。一辆车的速度是 60 公里/小时,另一辆车的速度是 70 公里/小时。请问它们需要多少小时才能相遇?” 修改后的问题可能是:“两辆汽车从相距 300 公里的两个城市同时出发,相背而行。一辆车的速度是 60 公里/小时,另一辆车的速度是 70 公里/小时。请问它们需要多少小时才能相遇?” 这两个问题虽然在文字上非常相似,但解决方案完全不同。
主要功能
RoR-Bench 的主要功能是:
- 检测 LLMs 的背诵行为:通过对比原始问题和条件稍作修改的问题,检测 LLMs 是否只是在背诵解决方案,而不是进行真正的推理。
- 评估 LLMs 的推理能力:通过包含各种类型的小学水平推理问题(如数学问题、逻辑问题等),评估 LLMs 在面对条件变化时的推理能力。
- 提供多模态测试:包含文本和图像问题,测试 LLMs 在不同模态下的推理能力。
工作原理
RoR-Bench 的工作原理基于以下步骤:
- 问题设计:设计原始问题和变体问题,确保变体问题在表面上与原始问题相似,但关键条件的改变导致需要不同的解决方案。
- 标注和审核:由人类标注者和审核者对问题进行标注和审核,确保问题的质量和有效性。
- 测试和评估:使用 GPT-4o-1120 作为评判模型,对 LLMs 的回答进行评分,评估 LLMs 在原始问题和变体问题上的表现。
- 实验分析:通过对比 LLMs 在原始问题和变体问题上的表现,分析 LLMs 是否只是在背诵解决方案,而不是进行真正的推理。
实验结果
1. 整体表现
RoR-Bench 的实验结果揭示了当前最先进的大型语言模型(LLMs)在处理条件变化时的严重背诵行为。具体来说,这些模型在原始问题上的表现较好,但在条件稍作修改的变体问题上,性能大幅下降,平均下降超过 50%,许多顶级模型如 OpenAI-o1 和 DeepSeek-R1 的性能下降甚至超过 60%。
2. 文本问题
- 原始问题表现:大多数 LLMs 在原始问题上的表现接近完美,平均得分超过 80%。
- 变体问题表现:在变体问题上,LLMs 的表现显著下降,平均得分不足 30%。例如,OpenAI-o1-1217 在原始问题上的得分为 86.08%,但在变体问题上的得分仅为 29.87%。
- “被迫正确”提示的影响:即使在问题前添加“被迫正确”(Forced Correct, FC)提示,LLMs 在变体问题上的表现仍然不佳,平均得分下降超过 45%。例如,OpenAI-o1-1217 在添加 FC 提示后,变体问题的得分从 29.87% 提升到 41.01%,但仍然远低于原始问题的得分。
3. 图像问题
- 原始问题表现:在图像问题上,LLMs 的表现也较好,平均得分超过 80%。
- 变体问题表现:在变体问题上,LLMs 的表现同样大幅下降,平均得分下降超过 35%。例如,GPT-4.5-Preview 在原始问题上的得分为 91.23%,但在变体问题上的得分仅为 17.89%。
- “被迫正确”提示的影响:添加 FC 提示对图像问题的改进效果有限,平均得分下降超过 30%。例如,GPT-4.5-Preview 在添加 FC 提示后,变体问题的得分从 17.89% 提升到 40.70%,但仍然远低于原始问题的得分。
4. 少样本上下文学习(Few-Shot In-Context Learning, ICL)
- 原始问题 + 1-shot:在原始问题的基础上添加一个示例问题和答案,可以略微提升 LLMs 在变体问题上的表现,但效果有限。例如,OpenAI-o1-1217 的变体问题得分从 29.87% 提升到 49.37%。
- 变体问题 + 1-shot:直接添加其他变体问题作为示例,也可以略微提升表现,但提升幅度较小。例如,OpenAI-o1-1217 的变体问题得分从 29.87% 提升到 34.41%。
- 5-shot:增加示例数量到 5 个,可以进一步提升表现,但仍然无法达到原始问题的水平。例如,OpenAI-o1-1217 的变体问题得分从 29.87% 提升到 43.89%。
5. 无解问题
- 原始表现:在无解问题上,LLMs 的表现极差,平均得分不足 10%。例如,DeepSeek-R1 在无解问题上的得分仅为 3.13%。
- “被迫正确”提示的影响:添加 FC 提示可以显著提升 LLMs 在无解问题上的表现,但效果因模型而异。例如,GPT-4.5-Preview 在添加 FC 提示后,无解问题的得分从 13.13% 提升到 58.13%,但 DeepSeek-R1 仍然只有 11.25%。
关键结论
- 背诵行为严重:LLMs 在处理条件变化时表现出严重的背诵行为,而不是进行真正的推理。
- 性能下降显著:在变体问题上,LLMs 的性能大幅下降,平均下降超过 50%。
- 简单提示效果有限:添加“被迫正确”提示或少样本示例可以略微提升表现,但效果有限,无法根本解决问题。
- 无解问题表现差:在无解问题上,LLMs 的表现极差,即使添加提示,许多模型仍然无法正确识别无解问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...