清华大学与清程极智开源大模型推理引擎“赤兔 Chitu”，实现 DeepSeek 推理成本降低一半、性能翻番

71 0

清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布，大模型推理引擎“赤兔 Chitu”现已正式开源。该引擎首次实现了在非英伟达 Hopper 架构 GPU 及各类国产芯片上原生运行 FP8 精度模型，显著降低了推理成本，同时将性能提升了一倍。

GitHub：https://github.com/thu-pacman/chitu

清华大学与清程极智开源大模型推理引擎“赤兔 Chitu”，实现 DeepSeek 推理成本降低一半、性能翻番

赤兔 Chitu 核心特性

“赤兔 Chitu”定位为“生产级大模型推理引擎”，具备以下核心特性：

多元算力适配：支持英伟达最新旗舰到旧款的多系列产品，同时为国产芯片提供优化支持，确保在不同硬件环境下都能实现高效推理。
全场景可伸缩：从纯 CPU 部署、单 GPU 部署到大规模集群部署，赤兔引擎提供灵活且可扩展的解决方案，满足多样化的业务需求。
长期稳定运行：引擎经过严格测试，稳定性足以承载高并发业务流量，适用于实际生产环境。

性能数据与测试结果

官方表示，在部署 DeepSeek-R1-671B 满血版时，赤兔引擎在英伟达A800 集群的测试中，相比部分国外开源框架，实现了 GPU 使用量减少 50% 的同时，推理速度提升 3.15 倍。

在英伟达A800 40GB 和 H20 96GB GPU 上的评测

研究团队对赤兔引擎进行了详细的性能测试，并与 vLLM 进行了对比：

A800 (40GB) 集群测试

硬件环境	框架+精度	使用 cuda graph	不使用 cuda graph
6 节点	vLLM 0.7.3, BF16	OOM	6.85 output token/s
6 节点	Chitu 0.1.0, BF16	29.8 output token/s	8.5 output token/s
3 节点	Chitu 0.1.0, FP8	22.7 output token/s	7.0 output token/s

测试结果：在单请求场景（bs=1）中，赤兔引擎使用 3 个节点运行 FP8 模型的输出速度与使用 6 个节点运行 BF16 模型的速度相当。使用 cuda graph 对性能有显著提升，而 vLLM 在 6 节点配置下使用 cuda graph 时出现了内存溢出错误（OOM）。

不同 Batch Size 测试

Batch Size	6 节点, BF16	3 节点, FP8
1	29.8 token/s	22.7 token/s
4	78.8 token/s	70.1 token/s
8	129.8 token/s	108.9 token/s
16	181.4 token/s	159.0 token/s
32	244.1 token/s	214.5 token/s

分析：在不同 Batch Size 下，使用 3 节点运行 FP8 模型的输出速度约为使用 6 节点运行 BF16 模型的 75%~90%，单位算力的产出提升了 1.5~1.8 倍。这表明在解码过程中，FP8 模型由于访存带宽的优化，显著提升了推理效率。

H20 (96GB) 集群测试

硬件环境	bs=1, output token/s	bs=16, output token/s	bs=256, output token/s
vLLM 0.7.2, FP8	21.16	205.09	1148.67
Chitu 0.1.0, FP8	22.1	202.1	780.3

测试结果：在单请求场景（bs=1）中，赤兔引擎性能略优于 vLLM。在中等批量大小（bs=16）下，两者性能相当。但在大批量处理场景（bs=256）中，vLLM 的吞吐量更高。赤兔团队表示将在后续版本中针对大批量处理场景进行优化。

文章版权归作者所有，未经允许请勿转载。

新型SD模型压缩方法VQDM：通过向量量化技术，能够将大型的文本到图像扩散模型压缩到较低比特位表示，同时保持图像生成的高质量

新技术 # VQDM # 模型压缩

7个月前

04720

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

新技术 # AI视频生成 # Motion-I2V # 清华大学

1年前

05210

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

新技术 # RAR模型 # 随机自回归视觉生成

5个月前

01870

实时交互式3D场景生成的创新框架WonderWorld：能够以低延迟的方式指定场景内容和布局，并实时查看创建的场景

新技术 # 3D场景 # WonderWorld

4个月前

01300

暂无评论

暂无评论...

清华大学与清程极智开源大模型推理引擎“赤兔 Chitu”，实现 DeepSeek 推理成本降低一半、性能翻番

赤兔 Chitu 核心特性

性能数据与测试结果

在英伟达A800 40GB 和 H20 96GB GPU 上的评测

A800 (40GB) 集群测试

不同 Batch Size 测试

H20 (96GB) 集群测试

加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG）：可实现2 倍加速和高保真度来加速视频生成

长上下文调优训练范式LCT：通过将预训练的单镜头视频扩散模型扩展到场景级视频生成，以生成具有视觉和动态一致性的多镜头视频内容

相关文章

新型SD模型压缩方法VQDM：通过向量量化技术，能够将大型的文本到图像扩散模型压缩到较低比特位表示，同时保持图像生成的高质量

AI视频生成新框架Motion-I2V：让用户通过简单的轨迹绘制或区域选择来控制生成的视频内容

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

实时交互式3D场景生成的创新框架WonderWorld：能够以低延迟的方式指定场景内容和布局，并实时查看创建的场景

暂无评论

文章

字节跳动推出VAPO框架：让大语言模型在复杂推理任务中更高效

Canva全面拥抱AI：新增图像生成、交互式编程与电子表格功能

条件感知神经网络CAN：用于在图像生成模型中添加控制

爱尔兰数据监管机构调查X：欧洲用户数据是否被滥用于训练Grok？

OpenAI推出“领域特定”AI基准计划Pioneer Program，重新定义模型评估标准

阿里云无影AgentBay发布，5分钟搭建高并发Agent环境

Open ASR 排行榜

Google AI Studio

Higgsfield AI

Qwen Chat

Tripo

HiDream

清华大学与清程极智开源大模型推理引擎“赤兔 Chitu”，实现 DeepSeek 推理成本降低一半、性能翻番

赤兔 Chitu 核心特性

性能数据与测试结果

在英伟达A800 40GB 和 H20 96GB GPU 上的评测

A800 (40GB) 集群测试

不同 Batch Size 测试

H20 (96GB) 集群测试

加速DiT架构模型的无需训练训练框架Sparse VideoGen（SVG）：可实现2 倍加速和高保真度来加速视频生成

长上下文调优训练范式LCT：通过将预训练的单镜头视频扩散模型扩展到场景级视频生成，以生成具有视觉和动态一致性的多镜头视频内容

相关文章

文章

标签云

网址

Open ASR 排行榜

Google AI Studio

Higgsfield AI

Qwen Chat

Tripo

HiDream