阿里云在 ACM SOSP 2025(操作系统原理研讨会)上发表了一篇经同行评审的论文,介绍其名为 Aegaeon 的新型 GPU 池化系统。该系统在阿里云 Model Studio 平台的多月生产测试中,将服务大型语言模型(LLM)所需的 NVIDIA H20 GPU 数量减少了 82%——从 1,192 个降至仅 213 个。
核心突破:令牌级调度 + 池化共享
与专注于训练优化的技术不同,Aegaeon 是一个推理时调度器,目标是最大化 GPU 利用率,尤其适用于多个 LLM 同时运行、请求模式突发或不可预测的场景。

其关键技术包括:
- 令牌级虚拟化(Token-level Scheduling)
不再将整个 GPU 固定分配给单个模型,而是以“生成的每个 token”为单位动态调度计算资源。这意味着单个 H20 可同时服务多个不同 LLM(最高达 720 亿参数)。 - 动态资源分配
采用令牌级自动缩放器,根据实际输出生成过程实时调整算力,而非在请求到达时静态预留资源,大幅减少空闲浪费。
实测效果
- “好产出”(Goodput)提升 1.5–9 倍
相比 ServerlessLLM、MuxServe 等现有无服务器推理系统,Aegaeon 在单位时间内完成的有效推理任务显著增加。 - 支持数十个 LLM 并行运行
测试涵盖多种规模模型,全部基于 NVIDIA H20——目前在中国受出口管制下仍可合法采购的主流 AI 加速器。
为何重要?
- 缓解硬件短缺压力:在中国等受限市场,H20 供应有限,Aegaeon 可显著提升现有 GPU 集群的推理吞吐。
- 垂直集成优势:阿里云利用自研 eRDMA 网络 和高度优化的 GPU 服务栈,可能使该方案在通用云环境中难以完全复现。
- 行业启示:超大规模云厂商正面临推理需求激增与 GPU 供应紧张的双重挑战,Aegaeon 展示了通过软件调度创新释放硬件潜力的新路径。
局限与展望
论文未披露具体网络拓扑或模型组合细节,因此其收益能否在非阿里云环境中复现尚不明确。但这一成果无疑为高效 LLM 推理调度提供了重要参考。
对于依赖 LLM 推理服务的企业和云平台而言,提升 GPU 利用率或许比等待下一代硬件更现实、更紧迫。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















