清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,大模型推理引擎“赤兔 Chitu”现已正式开源。该引擎首次实现了在非英伟达 Hopper 架构 GPU 及各类国产芯片上原生运行 FP8 精度模型,显著降低了推理成本,同时将性能提升了一倍。

赤兔 Chitu 核心特性
“赤兔 Chitu”定位为“生产级大模型推理引擎”,具备以下核心特性:
- 多元算力适配:支持英伟达最新旗舰到旧款的多系列产品,同时为国产芯片提供优化支持,确保在不同硬件环境下都能实现高效推理。
- 全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供灵活且可扩展的解决方案,满足多样化的业务需求。
- 长期稳定运行:引擎经过严格测试,稳定性足以承载高并发业务流量,适用于实际生产环境。
性能数据与测试结果
官方表示,在部署 DeepSeek-R1-671B 满血版时,赤兔引擎在英伟达A800 集群的测试中,相比部分国外开源框架,实现了 GPU 使用量减少 50% 的同时,推理速度提升 3.15 倍。
在英伟达A800 40GB 和 H20 96GB GPU 上的评测
研究团队对赤兔引擎进行了详细的性能测试,并与 vLLM 进行了对比:
A800 (40GB) 集群测试
硬件环境 | 框架+精度 | 使用 cuda graph | 不使用 cuda graph |
---|---|---|---|
6 节点 | vLLM 0.7.3, BF16 | OOM | 6.85 output token/s |
6 节点 | Chitu 0.1.0, BF16 | 29.8 output token/s | 8.5 output token/s |
3 节点 | Chitu 0.1.0, FP8 | 22.7 output token/s | 7.0 output token/s |
- 测试结果:在单请求场景(bs=1)中,赤兔引擎使用 3 个节点运行 FP8 模型的输出速度与使用 6 个节点运行 BF16 模型的速度相当。使用 cuda graph 对性能有显著提升,而 vLLM 在 6 节点配置下使用 cuda graph 时出现了内存溢出错误(OOM)。
不同 Batch Size 测试
Batch Size | 6 节点, BF16 | 3 节点, FP8 |
---|---|---|
1 | 29.8 token/s | 22.7 token/s |
4 | 78.8 token/s | 70.1 token/s |
8 | 129.8 token/s | 108.9 token/s |
16 | 181.4 token/s | 159.0 token/s |
32 | 244.1 token/s | 214.5 token/s |
- 分析:在不同 Batch Size 下,使用 3 节点运行 FP8 模型的输出速度约为使用 6 节点运行 BF16 模型的 75%~90%,单位算力的产出提升了 1.5~1.8 倍。这表明在解码过程中,FP8 模型由于访存带宽的优化,显著提升了推理效率。
H20 (96GB) 集群测试
硬件环境 | bs=1, output token/s | bs=16, output token/s | bs=256, output token/s |
---|---|---|---|
vLLM 0.7.2, FP8 | 21.16 | 205.09 | 1148.67 |
Chitu 0.1.0, FP8 | 22.1 | 202.1 | 780.3 |
- 测试结果:在单请求场景(bs=1)中,赤兔引擎性能略优于 vLLM。在中等批量大小(bs=16)下,两者性能相当。但在大批量处理场景(bs=256)中,vLLM 的吞吐量更高。赤兔团队表示将在后续版本中针对大批量处理场景进行优化。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...