DeepSeek 联手清北发布 DualPath:破解 AI 智能体长上下文推理的存储带宽瓶颈,吞吐量提升 87%

新技术1周前发布 小马良
15 0

来自北京大学、清华大学和DeepSeek的研究团队发布论文,研究的是AI智能体(Agent)推理时的存储瓶颈问题

背景是这样的:现在的AI不再只是简单的一问一答,而是变成了能自主规划、调用工具、多轮交互的"智能体"。比如AI编程助手会和你来回讨论几十轮,自动执行代码、分析报错、再修改代码。这种多轮对话会产生超长的上下文——可能达到几十万字。

  • 论文:https://arxiv.org/abs/2602.21548

这就带来了一个大麻烦:AI每进行一轮新对话,都需要把之前所有的"记忆"(专业术语叫KV-Cache)从硬盘里读出来。这些记忆数据量巨大,而读取速度却跟不上,导致昂贵的GPU显卡大部分时间都在"干等"数据,利用率极低。这就像让一位顶级大厨等着食材从仓库慢慢运来,大部分时间都在发呆

DeepSeek 联手清北发布 DualPath:破解 AI 智能体长上下文推理的存储带宽瓶颈,吞吐量提升 87%

现有的解决方案中,负责"理解新内容"的节点(Prefill引擎)存储带宽被撑爆,而负责"生成回答"的节点(Decode引擎)的存储带宽却闲置不用。这种严重的不平衡让整个系统效率低下。

主要功能

研究团队提出的系统叫DualPath(双路径),它的核心功能包括:

第一,双通道数据加载。除了传统的直接从存储读到理解节点,还开辟了一条新路径:先把数据读到生成节点,再通过高速网络传给理解节点。这样就盘活了闲置的带宽资源。

第二,智能流量调度。系统能自动决定每个请求该走哪条路径,确保两条路都不堵车,同时兼顾GPU的计算负载平衡。

第三,网络流量隔离。通过技术手段确保数据搬运不会干扰到AI模型本身的高速通信,保证回答速度不受影响。

第四,分层预填充。把超长文本分成多层处理,避免GPU内存不够用,同时让数据传输和计算重叠进行,减少等待时间。

主要特点

相比现有的解决方案,DualPath有以下几个显著优势:

盘活闲置资源。传统方案只用到一半的存储带宽(理解节点的),生成节点的带宽完全浪费。DualPath把两边的带宽都用起来,相当于把单车道扩建成了双车道。

不增加硬件成本。不需要买更贵的硬盘或网卡,纯粹通过软件优化和架构创新来提升性能。

兼容现有硬件。能在目前主流的数据中心架构上直接部署,不需要改造基础设施。

智能动态调度。不是死板地固定路线,而是根据实时负载情况灵活选择最优路径,避免"一条路堵死,一条路空着"的情况。

保证回答质量。虽然内部数据流动很复杂,但对用户来说,AI的响应速度和回答质量都没有下降,首Token时间和连续生成速度都保持优秀。

工作原理

DualPath的工作方式可以用一个物流比喻来理解:

想象一个大型电商仓库(存储系统),有两个分拣中心:A中心(理解节点)负责处理新到的货物信息,B中心(生成节点)负责打包发货。传统做法是所有货物都从仓库直接运到A中心,导致通往A中心的道路堵得水泄不通,而通往B中心的路却空空如也。

DualPath的做法是:允许货物先运到B中心,再通过一条内部高速公路(RDMA网络)转运到A中心。这样一来,两条对外的道路都能充分利用,整体运输能力翻倍。

具体实现上有三个关键设计:

数据路径设计:系统维护两种数据块格式——"完整块"用于和硬盘打交道,"分层块"用于在GPU之间快速传递。就像集装箱运输,在仓库用大集装箱提高效率,在分拣线用小箱子方便操作。

网络优先级的艺术:AI模型内部需要频繁高速通信(比如专家并行中的AllToAll操作),这些通信对延迟极其敏感,微秒级的延迟都会影响性能。DualPath把所有数据流量都经过计算网卡,利用InfiniBand网络的虚拟通道技术,给模型通信开"绿色通道"(高优先级),给数据搬运开"普通通道"(低优先级),两者互不干扰。

智能调度大脑:调度器会实时监控每个节点的三项指标——排队任务数、待处理Token数、磁盘读取队列长度。优先把任务分配给"磁盘不忙且负载轻"的节点;如果理解节点太忙,就让生成节点帮忙读数据;反之亦然。这就像一个经验丰富的交通指挥官,根据实时路况动态疏导车流。

测试结果

研究团队在真实的AI智能体任务上进行了大量测试,效果非常显著:

离线批处理场景(类似AI训练时的批量推理):在内部实验系统上,DualPath比基础版本最高提升了87%的吞吐量,接近理论极限性能。这意味着同样的硬件,能完成更多任务。

在线服务场景(类似实际生产环境):平均能支持多96%的并发请求,同时保证用户等待时间不超过4秒、连续生成间隔不超过50毫秒的服务标准。

不同规模测试:从小规模(几百个并发)到大规模(1152张GPU、4.8万个并发智能体),DualPath都保持了良好的扩展性。在最大规模测试中,系统能稳定处理每秒880万个Token的输入量。

消融实验:研究人员逐一验证每个组件的贡献。仅添加分层预填充就能提升17%的性能;再加上双路径加载,性能提升38%;配合智能调度算法后,总体性能比基础版本提升45%以上。

负载均衡效果:使用智能调度后,存储网卡的流量不均衡度从1.53降低到1.18(越接近1越均衡),GPU计算时间的差异也大幅缩小,有效减少了"有的忙死、有的闲死"的情况。

© 版权声明

相关文章

暂无评论

none
暂无评论...