Raylight:面向多显卡环境的高性能 DiT 视频生成推理框架

插件3个月前发布 小马良
95 0

在大模型时代,单卡推理已难以满足高分辨率视频生成的需求。面对显存瓶颈,开发者们正在探索更高效的并行策略。

近期开源的 Raylight 正是为此而生——一个专为 DiT 架构(Diffusion Transformer) 设计的高性能推理框架,集成 XDiT-XFuser 与 FSDP(Fully Sharded Data Parallel) 技术,支持多 GPU 甚至超低 VRAM 环境下的稳定采样。

Raylight:面向多显卡环境的高性能 DiT 视频生成推理框架

正如社区一句调侃所言:

“为什么买 5090,当你可以买 2x5070s?”

Raylight 的目标很明确:
让有限的硬件资源,跑出尽可能高的生成效率。

核心特性与技术架构

🚀 多级并行策略,按需选择

Raylight 提供三种层级的并行模式,适用于不同显存条件:

模式适用场景特点
USP (Unified Streaming Pipeline)显存充足单设备流式处理,延迟最低
FSDP显存中等分片参数,跨 GPU 负载均衡
FSDP + CPU 卸载显存极低类似“块交换”,牺牲速度换取可运行性

✅ 经验法则:有足够 VRAM 用 USP;不足则用 FSDP;仍不够就启用 CPU 卸载。

⚙️ 关键技术栈

  • XDiT-XFuser:针对 DiT 结构优化的融合算子,提升计算效率;
  • FSDP:PyTorch 原生分片机制,实现模型参数、梯度、优化器状态的分布式管理;
  • SageAttn 支持:无需安装 FlashAttention,原生集成 sage_fp8 等高效注意力变体;
  • 完整 LoRA 支持:可在并行环境下加载微调权重。

支持的模型与硬件

✅ 当前支持模型(均为 DiT 类)

模型系列具体型号USPFSDP
WanWan2.1/2.2 T2V/I2V (1.3B–14B)
Wan2.1 Vace
FluxDev / Konteks / Krea
ControlNet
QwenImage/Edit
ControlNet
Hunyuan Video-❓(待验证)

⚠️ 注意:仅支持 DiT 架构模型,非 DiT 模型(如传统 U-Net)不兼容。

💻 显卡架构兼容性

英伟达

  • Ampere:建议使用 PyTorch 2.7.1 + CUDA 12.8,Torch 2.8 存在 NCCL 通信问题(pytorch#162057)。
  • Turing:未测试,推荐使用 FlashAttn1 或 Torch 原生 attn。
  • Ada Lovelace:Torch 2.8 中 dist_init_process_group 可能导致 OOM,但其余功能正常。
  • Blackwell:预计表现与 Ada 类似。

AMD

  • MI3XX 系列:已在 8xMI300X 上验证通过,需使用 ROCm 编译的 PyTorch 并启用 Flash Attention。

性能对比:SageAttn 各变体实测

在 Wan 2.1 T2V 14B(832×480, 33帧)任务下,使用 2×RTX 2000 Ada 测试不同注意力后端性能:

注意力变体耗时 (秒)
sage_fp810.75
sage_fp16_cuda11.00
sage_fp16_triton11.17
flash11.24
torch11.36

结果表明:sage_fp8 是当前最优选择,兼顾速度与显存占用。

安装指南

方法一:手动安装(推荐)

# 克隆仓库到 ComfyUI 插件目录
https://github.com/komikndr/raylight.git ComfyUI/custom_nodes/raylight

cd raylight

# 安装依赖
pip install -r requirements.txt

# 安装 FlashAttention(二选一)
# 选项 A:源码编译(耗时长,不推荐)
pip install flash-attn --no-build-isolation

# 选项 B:使用预构建轮子(推荐)
wget https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.3.14/flash_attn-2.8.2+cu128torch2.7-cp311-cp311-linux_x86_64.whl
pip install flash_attn-2.8.2+cu128torch2.7-cp311-cp311-linux_x86_64.whl

🔗 更多预编译版本见:https://github.com/mjun0812/flash-attention-prebuild-wheels/releases

重启 ComfyUI 后即可使用。

方法二:通过 ComfyUI Manager 安装

  1. 打开 ComfyUI Manager;
  2. 搜索 raylight
  3. 点击安装。

使用说明与调试建议

  • 示例工作流(WF)已内置,可在 ComfyUI 菜单中直接打开模板;
  • Qwen 模型目前仅支持 1280x1280 输入,其他方形尺寸会报错,请避免使用非标准分辨率;
  • 若出现 NCCL 通信失败,请设置:
    export NCCL_P2P_DISABLE=1
    export NCCL_SHM_DISABLE=1
    
  • Windows 环境未测试,项目主要开发与验证基于 Linux 云多 GPU 环境。
© 版权声明

相关文章

暂无评论

none
暂无评论...