阿里云新系统 Aegaeon:用 213 个 GPU 实现 1,192 个的推理能力

新技术2个月前发布 小马良
51 0

阿里云在 ACM SOSP 2025(操作系统原理研讨会)上发表了一篇经同行评审的论文,介绍其名为 Aegaeon 的新型 GPU 池化系统。该系统在阿里云 Model Studio 平台的多月生产测试中,将服务大型语言模型(LLM)所需的 NVIDIA H20 GPU 数量减少了 82%——从 1,192 个降至仅 213 个

核心突破:令牌级调度 + 池化共享

与专注于训练优化的技术不同,Aegaeon 是一个推理时调度器,目标是最大化 GPU 利用率,尤其适用于多个 LLM 同时运行、请求模式突发或不可预测的场景。

阿里云新系统 Aegaeon:用 213 个 GPU 实现 1,192 个的推理能力

其关键技术包括:

  1. 令牌级虚拟化(Token-level Scheduling)
    不再将整个 GPU 固定分配给单个模型,而是以“生成的每个 token”为单位动态调度计算资源。这意味着单个 H20 可同时服务多个不同 LLM(最高达 720 亿参数)。
  2. 动态资源分配
    采用令牌级自动缩放器,根据实际输出生成过程实时调整算力,而非在请求到达时静态预留资源,大幅减少空闲浪费。

实测效果

  • “好产出”(Goodput)提升 1.5–9 倍
    相比 ServerlessLLM、MuxServe 等现有无服务器推理系统,Aegaeon 在单位时间内完成的有效推理任务显著增加。
  • 支持数十个 LLM 并行运行
    测试涵盖多种规模模型,全部基于 NVIDIA H20——目前在中国受出口管制下仍可合法采购的主流 AI 加速器。

为何重要?

  • 缓解硬件短缺压力:在中国等受限市场,H20 供应有限,Aegaeon 可显著提升现有 GPU 集群的推理吞吐。
  • 垂直集成优势:阿里云利用自研 eRDMA 网络 和高度优化的 GPU 服务栈,可能使该方案在通用云环境中难以完全复现。
  • 行业启示:超大规模云厂商正面临推理需求激增与 GPU 供应紧张的双重挑战,Aegaeon 展示了通过软件调度创新释放硬件潜力的新路径。

局限与展望

论文未披露具体网络拓扑或模型组合细节,因此其收益能否在非阿里云环境中复现尚不明确。但这一成果无疑为高效 LLM 推理调度提供了重要参考。

对于依赖 LLM 推理服务的企业和云平台而言,提升 GPU 利用率或许比等待下一代硬件更现实、更紧迫。

© 版权声明

相关文章

暂无评论

none
暂无评论...