DeepSeek 联手清北发布 DualPath：破解 AI 智能体长上下文推理的存储带宽瓶颈，吞吐量提升 87%

30 0

来自北京大学、清华大学和DeepSeek的研究团队发布论文，研究的是AI智能体（Agent）推理时的存储瓶颈问题。

背景是这样的：现在的AI不再只是简单的一问一答，而是变成了能自主规划、调用工具、多轮交互的"智能体"。比如AI编程助手会和你来回讨论几十轮，自动执行代码、分析报错、再修改代码。这种多轮对话会产生超长的上下文——可能达到几十万字。

论文：https://arxiv.org/abs/2602.21548

这就带来了一个大麻烦：AI每进行一轮新对话，都需要把之前所有的"记忆"（专业术语叫KV-Cache）从硬盘里读出来。这些记忆数据量巨大，而读取速度却跟不上，导致昂贵的GPU显卡大部分时间都在"干等"数据，利用率极低。这就像让一位顶级大厨等着食材从仓库慢慢运来，大部分时间都在发呆

DeepSeek 联手清北发布 DualPath：破解 AI 智能体长上下文推理的存储带宽瓶颈，吞吐量提升 87%

现有的解决方案中，负责"理解新内容"的节点（Prefill引擎）存储带宽被撑爆，而负责"生成回答"的节点（Decode引擎）的存储带宽却闲置不用。这种严重的不平衡让整个系统效率低下。

主要功能

研究团队提出的系统叫DualPath（双路径），它的核心功能包括：

第一，双通道数据加载。除了传统的直接从存储读到理解节点，还开辟了一条新路径：先把数据读到生成节点，再通过高速网络传给理解节点。这样就盘活了闲置的带宽资源。

第二，智能流量调度。系统能自动决定每个请求该走哪条路径，确保两条路都不堵车，同时兼顾GPU的计算负载平衡。

第三，网络流量隔离。通过技术手段确保数据搬运不会干扰到AI模型本身的高速通信，保证回答速度不受影响。

第四，分层预填充。把超长文本分成多层处理，避免GPU内存不够用，同时让数据传输和计算重叠进行，减少等待时间。

主要特点

相比现有的解决方案，DualPath有以下几个显著优势：

盘活闲置资源。传统方案只用到一半的存储带宽（理解节点的），生成节点的带宽完全浪费。DualPath把两边的带宽都用起来，相当于把单车道扩建成了双车道。

不增加硬件成本。不需要买更贵的硬盘或网卡，纯粹通过软件优化和架构创新来提升性能。

兼容现有硬件。能在目前主流的数据中心架构上直接部署，不需要改造基础设施。

智能动态调度。不是死板地固定路线，而是根据实时负载情况灵活选择最优路径，避免"一条路堵死，一条路空着"的情况。

保证回答质量。虽然内部数据流动很复杂，但对用户来说，AI的响应速度和回答质量都没有下降，首Token时间和连续生成速度都保持优秀。

工作原理

DualPath的工作方式可以用一个物流比喻来理解：

想象一个大型电商仓库（存储系统），有两个分拣中心：A中心（理解节点）负责处理新到的货物信息，B中心（生成节点）负责打包发货。传统做法是所有货物都从仓库直接运到A中心，导致通往A中心的道路堵得水泄不通，而通往B中心的路却空空如也。

DualPath的做法是：允许货物先运到B中心，再通过一条内部高速公路（RDMA网络）转运到A中心。这样一来，两条对外的道路都能充分利用，整体运输能力翻倍。

具体实现上有三个关键设计：

数据路径设计：系统维护两种数据块格式——"完整块"用于和硬盘打交道，"分层块"用于在GPU之间快速传递。就像集装箱运输，在仓库用大集装箱提高效率，在分拣线用小箱子方便操作。

网络优先级的艺术：AI模型内部需要频繁高速通信（比如专家并行中的AllToAll操作），这些通信对延迟极其敏感，微秒级的延迟都会影响性能。DualPath把所有数据流量都经过计算网卡，利用InfiniBand网络的虚拟通道技术，给模型通信开"绿色通道"（高优先级），给数据搬运开"普通通道"（低优先级），两者互不干扰。

智能调度大脑：调度器会实时监控每个节点的三项指标——排队任务数、待处理Token数、磁盘读取队列长度。优先把任务分配给"磁盘不忙且负载轻"的节点；如果理解节点太忙，就让生成节点帮忙读数据；反之亦然。这就像一个经验丰富的交通指挥官，根据实时路况动态疏导车流。