Raylight：面向多显卡环境的高性能 DiT 视频生成推理框架

121 0

在大模型时代，单卡推理已难以满足高分辨率视频生成的需求。面对显存瓶颈，开发者们正在探索更高效的并行策略。

GitHub：https://github.com/komikndr/raylight

近期开源的 Raylight 正是为此而生——一个专为 DiT 架构（Diffusion Transformer） 设计的高性能推理框架，集成 XDiT-XFuser 与 FSDP（Fully Sharded Data Parallel） 技术，支持多 GPU 甚至超低 VRAM 环境下的稳定采样。

正如社区一句调侃所言：

“为什么买 5090，当你可以买 2x5070s？”

Raylight 的目标很明确：
让有限的硬件资源，跑出尽可能高的生成效率。

核心特性与技术架构

🚀 多级并行策略，按需选择

Raylight 提供三种层级的并行模式，适用于不同显存条件：

模式	适用场景	特点
USP (Unified Streaming Pipeline)	显存充足	单设备流式处理，延迟最低
FSDP	显存中等	分片参数，跨 GPU 负载均衡
FSDP + CPU 卸载	显存极低	类似“块交换”，牺牲速度换取可运行性

✅ 经验法则：有足够 VRAM 用 USP；不足则用 FSDP；仍不够就启用 CPU 卸载。

⚙️ 关键技术栈

XDiT-XFuser：针对 DiT 结构优化的融合算子，提升计算效率；
FSDP：PyTorch 原生分片机制，实现模型参数、梯度、优化器状态的分布式管理；
SageAttn 支持：无需安装 FlashAttention，原生集成 sage_fp8 等高效注意力变体；
完整 LoRA 支持：可在并行环境下加载微调权重。

支持的模型与硬件

✅ 当前支持模型（均为 DiT 类）

模型系列	具体型号	USP	FSDP
Wan	Wan2.1/2.2 T2V/I2V (1.3B–14B)	✅	✅
	Wan2.1 Vace	✅	❌
Flux	Dev / Konteks / Krea	✅	✅
	ControlNet	❌	❌
Qwen	Image/Edit	✅	✅
	ControlNet	❌	❌
Hunyuan Video	-	❌	❓（待验证）

⚠️ 注意：仅支持 DiT 架构模型，非 DiT 模型（如传统 U-Net）不兼容。

💻 显卡架构兼容性

英伟达

Ampere：建议使用 PyTorch 2.7.1 + CUDA 12.8，Torch 2.8 存在 NCCL 通信问题（pytorch#162057）。
Turing：未测试，推荐使用 FlashAttn1 或 Torch 原生 attn。
Ada Lovelace：Torch 2.8 中 dist_init_process_group 可能导致 OOM，但其余功能正常。
Blackwell：预计表现与 Ada 类似。

AMD

MI3XX 系列：已在 8xMI300X 上验证通过，需使用 ROCm 编译的 PyTorch 并启用 Flash Attention。

性能对比：SageAttn 各变体实测

在 Wan 2.1 T2V 14B（832×480, 33帧）任务下，使用 2×RTX 2000 Ada 测试不同注意力后端性能：

注意力变体	耗时 (秒)
`sage_fp8`	10.75
`sage_fp16_cuda`	11.00
`sage_fp16_triton`	11.17
`flash`	11.24
`torch`	11.36

结果表明：sage_fp8 是当前最优选择，兼顾速度与显存占用。

安装指南

方法一：手动安装（推荐）

# 克隆仓库到 ComfyUI 插件目录
https://github.com/komikndr/raylight.git ComfyUI/custom_nodes/raylight

cd raylight

# 安装依赖
pip install -r requirements.txt

# 安装 FlashAttention（二选一）
# 选项 A：源码编译（耗时长，不推荐）
pip install flash-attn --no-build-isolation

# 选项 B：使用预构建轮子（推荐）
wget https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.3.14/flash_attn-2.8.2+cu128torch2.7-cp311-cp311-linux_x86_64.whl
pip install flash_attn-2.8.2+cu128torch2.7-cp311-cp311-linux_x86_64.whl

🔗 更多预编译版本见：https://github.com/mjun0812/flash-attention-prebuild-wheels/releases

重启 ComfyUI 后即可使用。

方法二：通过 ComfyUI Manager 安装

打开 ComfyUI Manager；
搜索 raylight；
点击安装。

使用说明与调试建议

示例工作流（WF）已内置，可在 ComfyUI 菜单中直接打开模板；
Qwen 模型目前仅支持 1280x1280 输入，其他方形尺寸会报错，请避免使用非标准分辨率；

若出现 NCCL 通信失败，请设置：

export NCCL_P2P_DISABLE=1
export NCCL_SHM_DISABLE=1

Windows 环境未测试，项目主要开发与验证基于 Linux 云多 GPU 环境。

插件 # Raylight

文章版权归作者所有，未经允许请勿转载。

ComfyUI-FSampler ：通过 Epsilon 外推实现高效采样加速

插件 # ComfyUI-FSampler # 采样加速

5个月前

01820

ComfyUI_Viewer_OpenReel_Extension：告别反复导出导入，让ComfyUI 原生集成 OpenReel，打造视频生成与剪辑的无缝闭环

插件 # OpenReel # 视频编辑器

2周前

0270

ComfyUI-Grok-SmartVAE：专为长视频设计的抗崩溃 VAE 解码器，支持 2000+ 帧稳定输出

插件 # ComfyUI-Grok-SmartVAE

2周前

0350

ComfyUI-Trellis2：3D 生成模型TRELLIS.2的 ComfyUI 节点

插件 # ComfyUI-Trellis2 # TRELLIS.2

2个月前

02970

暂无评论

暂无评论...