阿里云新系统 Aegaeon：用 213 个 GPU 实现 1,192 个的推理能力

新技术4个月前发布小马良

89 0

阿里云在 ACM SOSP 2025（操作系统原理研讨会）上发表了一篇经同行评审的论文，介绍其名为 Aegaeon 的新型 GPU 池化系统。该系统在阿里云 Model Studio 平台的多月生产测试中，将服务大型语言模型（LLM）所需的 NVIDIA H20 GPU 数量减少了 82%——从 1,192 个降至仅 213 个。

论文地址：https://dl.acm.org/doi/10.1145/3731569.3764815

核心突破：令牌级调度 + 池化共享

与专注于训练优化的技术不同，Aegaeon 是一个推理时调度器，目标是最大化 GPU 利用率，尤其适用于多个 LLM 同时运行、请求模式突发或不可预测的场景。

阿里云新系统 Aegaeon：用 213 个 GPU 实现 1,192 个的推理能力

其关键技术包括：

令牌级虚拟化（Token-level Scheduling）
不再将整个 GPU 固定分配给单个模型，而是以“生成的每个 token”为单位动态调度计算资源。这意味着单个 H20 可同时服务多个不同 LLM（最高达 720 亿参数）。
动态资源分配
采用令牌级自动缩放器，根据实际输出生成过程实时调整算力，而非在请求到达时静态预留资源，大幅减少空闲浪费。

实测效果

“好产出”（Goodput）提升 1.5–9 倍
相比 ServerlessLLM、MuxServe 等现有无服务器推理系统，Aegaeon 在单位时间内完成的有效推理任务显著增加。
支持数十个 LLM 并行运行
测试涵盖多种规模模型，全部基于 NVIDIA H20——目前在中国受出口管制下仍可合法采购的主流 AI 加速器。

为何重要？

缓解硬件短缺压力：在中国等受限市场，H20 供应有限，Aegaeon 可显著提升现有 GPU 集群的推理吞吐。
垂直集成优势：阿里云利用自研 eRDMA 网络 和高度优化的 GPU 服务栈，可能使该方案在通用云环境中难以完全复现。
行业启示：超大规模云厂商正面临推理需求激增与 GPU 供应紧张的双重挑战，Aegaeon 展示了通过软件调度创新释放硬件潜力的新路径。

局限与展望

论文未披露具体网络拓扑或模型组合细节，因此其收益能否在非阿里云环境中复现尚不明确。但这一成果无疑为高效 LLM 推理调度提供了重要参考。

对于依赖 LLM 推理服务的企业和云平台而言，提升 GPU 利用率或许比等待下一代硬件更现实、更紧迫。

新技术 # Aegaeon # 阿里云

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

字节跳动Seed团队发布WideSearch：首个面向大规模信息收集的智能体评估基准

字节跳动Seed团队发布WideSearch：首个面向大规模信息收集的智能体评估基准

新技术 # WideSearch # 字节跳动 # 智能体评估基准

7个月前

04880

SageAttention3 发布：FP4 推理加速与 8 位训练新探索

SageAttention3 发布：FP4 推理加速与 8 位训练新探索

新技术 # SageAttention3 # 清华大学

5个月前

01110

LoRA：为解决大语言模型微调而开发

LoRA：为解决大语言模型微调而开发

新技术 # Lora # 大语言模型 # 微软

2年前

05940

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

新型神经网络渲染技术Joint-TensoRF：使用2D图像作为监督，实现相机姿态和场景几何的精细调整

新技术 # Joint-TensoRF # 神经网络渲染

2年前

05760

暂无评论

none

暂无评论...