DEER：让大模型推理更高效，动态提前退出的新方法

336 0

近年来，大型推理语言模型（LRLM）如 DeepSeek-R1 和 GPT-O1 的发展显著提升了复杂问题的解决能力。这些模型通过延长推理过程中“思维链”（Chain of Thought, CoT）的生成长度，能够挖掘更多元化的推理路径。然而，这种长链推理也带来了计算效率低下和延迟增加的问题，尤其是在现实世界应用中，过长的推理链不仅浪费资源，还可能引入冗余甚至错误信息，导致结果偏离正确答案。

论文地址：https://arxiv.org/abs/2504.15895

为了解决这一问题，中国科学院信息工程研究所、中国科学院大学与华为技术有限公司的研究团队提出了一种全新的无训练方法——DEER（Dynamic Early Exit in Reasoning，推理中的动态提前退出）。该方法通过在推理过程中动态识别最佳停止点，实现了效率和准确性的双重提升。

核心思路：动态监控与提前退出

DEER 的核心思想是，在推理过程中实时评估模型对当前试验性答案的置信度，并根据置信度决定是否提前退出推理。这种方法无需额外训练或依赖外部验证模型，完全兼容现有架构，是一种轻量级且高效的解决方案。

工作原理

DEER 通过三个模块协作完成动态提前退出：

推理转换监视器
监控推理过程中的关键转换信号（如特定标记的生成），判断是否进入“思维转换”阶段。
答案诱导器
在检测到转换信号时，提示模型生成一个试验性答案。
置信度评估器
评估模型对试验性答案的置信度。如果置信度超过预设阈值，则停止推理；否则继续生成后续推理步骤。

为了进一步优化性能，DEER 引入了分支并行解码和动态缓存管理机制，以减少试验性答案生成带来的延迟，同时提高整体推理效率。

实验验证：显著减少推理长度，提升准确性

研究团队在多个主流推理基准测试和编程任务上验证了 DEER 的有效性。实验涵盖了 MATH-500、AMC 2023、AIME 2024 和 GPQA Diamond 等推理任务，以及 HumanEval 和 BigCodeBench 等编程任务。

主要成果

推理长度大幅缩减
在所有测试中，DEER 将 CoT 长度减少了 31%–43%，同时将准确性提高了 1.7%–5.7%。这表明，模型能够在更短的推理路径中达到更高的精度。
编程任务表现尤为突出
在代码生成任务中，DEER 将推理长度减少了 60% 以上，而准确性几乎没有损失，证明了其在多样化任务中的鲁棒性。
小模型和简单任务收益更大
对于较小规模的模型和较简单的任务，DEER 提前退出的效果更加显著，纠正了更多的错误响应，展现了强大的适应性。