混合递归（MoR）：用“动态思考”提升大模型推理效率

97 0

在大模型追求极致规模的浪潮中，一种新的架构正试图从“智能调度”而非“堆叠参数”的角度，重新定义效率。

由 KAIST AI 与 Mila 联合提出的新框架——混合递归（Mixture-of-Recursions, MoR），在不增加参数量的前提下，实现了最高 2.06 倍的推理吞吐提升，并显著降低内存占用。这一成果为大模型的轻量化部署与高效推理提供了全新的技术路径。

GitHub：https://github.com/raymin0223/mixture_of_recursions

问题根源：规模与效率的矛盾

当前大语言模型（LLM）的性能提升高度依赖参数规模和计算资源。但随着模型变大，其训练与推理成本急剧上升，对内存、算力和能耗的要求让许多组织望而却步。

因此，研究者们一直在探索两大方向来提升效率：

参数共享：减少模型中独立参数的数量，如“层绑定”技术；
自适应计算：根据输入复杂度动态分配计算资源，如“提前退出”机制。

然而，如何将两者有效结合，仍是挑战。

MoR 的创新，正是将“参数共享”与“自适应计算”统一于一个框架之下。

MoR 的核心机制：让每个 token 自主决定“想多久”

MoR 基于递归 Transformer 架构构建，其核心思想是：不堆叠大量独立层，而是重复使用一组共享参数层，通过多次“递归”处理来模拟深层网络的效果。

在此基础上，MoR 引入了两个关键组件，实现智能调度：

1. 轻量级路由器：为每个 token 分配“思考深度”

MoR 引入一个轻量级的路由机制，类似于 MoE（Mixture of Experts）中的专家选择，但它路由的不是专家，而是递归深度。

对于每一个输入 token，路由器会判断其复杂程度，并决定该 token 需要经过多少次递归处理。例如：

简单词汇（如“的”、“是”）：只需 1-2 次递归；
复杂逻辑或专业术语：可分配 5 次以上递归。

这实现了真正的按需计算，避免在简单 token 上浪费算力。

2. 逐递归 KV 缓存：精准管理记忆开销

传统 KV 缓存会为所有 token 保存完整的键值状态，导致内存占用随序列长度线性增长，在递归模型中尤为严重。

MoR 提出 “逐递归 KV 缓存” 策略：

只为当前递归步骤中仍活跃的 token 保留 KV 状态；
已完成处理的 token 状态被释放。

这一机制大幅减少了内存流量和峰值占用，提升了整体吞吐效率。

研究人员在论文中总结道：

“MoR 本质上使模型能够基于每个 token 高效调整其思考深度，统一了参数效率与自适应计算。”

实测表现：更快、更省、更可扩展

研究团队训练了从 1.35亿到17亿参数 的 MoR 模型，并与标准 Transformer 和普通递归模型对比。

训练阶段

在相同计算预算下，MoR 模型的平均少样本准确率提升至 43.1%（基线为 42.3%）；
尽管参数量减少近 50%，性能仍持平甚至反超；
训练时间缩短 19%，峰值内存降低 25%。

推理阶段

某一 MoR 配置的推理吞吐达到传统基线的 2.06 倍；
更低的 KV 缓存占用意味着可支持更长上下文窗口，且能并行处理更多请求。

随着模型规模增长，MoR 的优势愈发明显：
在超过 3.6亿参数 的模型上，MoR 在更低计算预算下即可匹配或超越标准 Transformer 的性能。

企业如何落地？无需从头训练

尽管 MoR 目前基于从头训练的模型验证，但团队指出，“上行训练”（upcycling）现有开源模型是更现实、更具成本效益的路径。

KAIST 博士生、论文合著者 Sangmin Bae 表示：

“在 MoR 的扩展性完全验证前，对已有模型进行适配，可能比从零训练更高效。”

开发者可通过以下方式利用 MoR：

将 MoR 架构作为“推理加速插件”集成到现有模型；
根据任务复杂度，灵活调整递归深度与路由器策略；
在边缘设备或高并发服务中，优先启用深度递归以节省资源。

未来：模态无关的自适应计算

MoR 的设计是模态无关的，这意味着其核心思想不仅适用于文本，还可扩展至：

视频：对关键帧进行深度处理，跳过静止片段；
音频：在复杂语义段落增加递归，在静音或背景音中减少计算；
多模态：动态分配跨模态融合的计算资源。

Bae 表示：

“我们对其在多模态场景中的潜力感到兴奋，因为效率提升在这些领域尤为关键。”

新技术 # MoR # 混合递归

文章版权归作者所有，未经允许请勿转载。

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

新技术 # STABLEV2V # 视频编辑

1年前

06170

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

新技术 # FoleyCrafter

2年前

06700

OLA-VLM：提升多模态大语言模型中的视觉感知能力

新技术 # OLA-VLM # 多模态大语言模型

1年前

02750

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

新技术 # MagCache # 幅度感知 # 模型加速

9个月前

04250

暂无评论

暂无评论...

混合递归（MoR）：用“动态思考”提升大模型推理效率

问题根源：规模与效率的矛盾

MoR 的核心机制：让每个 token 自主决定“想多久”

1. 轻量级路由器：为每个 token 分配“思考深度”

2. 逐递归 KV 缓存：精准管理记忆开销

实测表现：更快、更省、更可扩展

训练阶段

推理阶段

企业如何落地？无需从头训练

未来：模态无关的自适应计算

Snap Research 推出 Zero-Shot Dynamic Concept：无需微调，即可实现视频级动态个性化

如何让AI“不生成某物”？UBC研究人员提出轻量级负提示新方案VSF

相关文章

视频编辑方法STABLEV2V：解决视频编辑中形状一致性问题

FoleyCrafter：用于将无声视频通过自动生成高质量、与视频同步的声音效果，从而带来沉浸式的视听体验

OLA-VLM：提升多模态大语言模型中的视觉感知能力

基于“幅度感知”的新型缓存机制MagCache：用于加速图像和视频扩散模型的生成过程

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新AutoClaw

混合递归（MoR）：用“动态思考”提升大模型推理效率

问题根源：规模与效率的矛盾

MoR 的核心机制：让每个 token 自主决定“想多久”

1. 轻量级路由器：为每个 token 分配“思考深度”

2. 逐递归 KV 缓存：精准管理记忆开销

实测表现：更快、更省、更可扩展

训练阶段

推理阶段

企业如何落地？无需从头训练

未来：模态无关的自适应计算

Snap Research 推出 Zero-Shot Dynamic Concept：无需微调，即可实现视频级动态个性化

如何让AI“不生成某物”？UBC研究人员提出轻量级负提示新方案VSF

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新AutoClaw