ComfyUI-DaVinci-MagiHuman:150 亿参数音视频生成模型,消费级显卡也能跑 1080p!

插件2天前发布 小马良
28 0

在 AI 视频生成领域,显存(VRAM) 一直是阻碍普通用户体验高质量模型的“拦路虎”。通常,运行一个 150 亿参数的单流 Transformer 模型需要企业级显卡(如 A100/H100)。

ComfyUI-DaVinci-MagiHuman 自定义节点专为 daVinci-MagiHuman 模型打造,通过创新的块级 CPU/GPU 交换技术异步预取机制,成功将这一庞然大物优化至可在 RTX 5090/4090 等消费级显卡上流畅运行,并支持 1080p 超分辨率 与 音视频联合生成

daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

daVinci-MagiHuman:单流架构重塑音视频生成,1080p 仅需 38 秒的开源新标杆

核心黑科技:如何让 15B 模型在 24GB 显存上奔跑?

该节点不仅仅是模型的简单封装,更包含了一系列针对消费级硬件的深度优化:

1.  块级 CPU/GPU 交换 (Block-wise Swapping)

  • 原理:daVinci-MagiHuman 拥有 40 层 Transformer。传统方式需将所有层加载到显存,而本节点仅将当前计算所需的 8 层保留在 GPU 上,其余层暂存于系统内存(CPU RAM)。
  • 效果:显存占用从 30GB+ 骤降至 6GB 左右(不含开销),使得 24GB-32GB 显存的显卡也能轻松驾驭。

2. 异步 CUDA 预取 (Async CUDA Prefetch)

  • 原理:利用 CUDA 流并行特性,在当前块进行计算时,后台同时从 CPU 内存传输下一个块的数据到 GPU。
  • 效果:完美掩盖了数据搬运的延迟,实现了“计算 - 传输”重叠,大幅提升了生成速度,避免了频繁交换带来的卡顿。

3. 蒸馏模式 (Distillation Mode)

  • 8 步极速生成:内置蒸馏模型,仅需 8 步去噪 即可产出高质量视频,无需复杂的无分类器引导(CFG),推理速度提升 4 倍以上。

4.  1080p 超分 + TurboVAE

  • 潜空间放大:内置专用超分模型,可将 256p 的基础生成结果直接放大至 1080p,细节损失极小。
  • 滑动窗口解码:TurboVAE 解码器采用滑动窗口技术,支持将解码任务卸载,避免高分辨率解码时的显存爆炸。

 功能全景:音画同步,单流生成

  • 🎥 + 🎵 音视频联合生成:基于单流 Transformer 架构,同时生成视频画面与配套音频,确保口型、动作与声音的完美同步。
  • 📝 强大文本编码:支持 T5Gemma-9B 作为文本编码器(需外部输入或占位符测试),理解复杂提示词能力卓越。
  • 🛠️ 完整工作流节点
    • DaVinci Model Loader:灵活配置 blocks_on_gpu 数量。
    • DaVinci Super Resolution:一键开启 1080p 超分。
    • DaVinci Video Output:直接调用 FFmpeg 输出 MP4/WebM。

系统要求与显存指南

硬件门槛

  • GPU:推荐 RTX 5090 或 RTX 4090 (24GB+)。最低支持 16GB 显存(需牺牲速度)。
  • 内存 (RAM):建议 64GB 以上,用于存放交换的模型块。
  • CUDA:必须支持 bf16 (Brain Floating Point 16)。
  • 软件:Python, PyTorch, FFmpeg, safetensors。

显存 vs 速度平衡表

你可以根据自身显卡情况,在 DaVinci Model Loader 中调整 blocks_on_gpu 参数:

blocks_on_gpu显存占用 (估算)生成速度推荐显卡配置
4~3GB + 开销🐢 最慢16GB (RTX 4080/4070Ti Super)
8~6GB + 开销🚀 良好 (默认)24-32GB (RTX 4090/5090)
16~12GB + 开销⚡ 快速48GB (RTX 6000 Ada)
40~30GB + 开销🚄 最快 (全加载)80GB+ (A100/H100)

安装与模型下载

1. 安装节点

在 ComfyUI Manager 中搜索 ComfyUI-DaVinci-MagiHuman 并安装,或手动克隆至 custom_nodes 目录。

2. 下载模型权重 (HuggingFace)

由于模型较大,建议使用 Git LFS 按需下载:

cd ComfyUI/models
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHuman
cd daVinci-MagiHuman

# 方案 A:仅下载蒸馏版 + VAE (约 61GB,推荐新手)
git lfs pull --include="distill/*,turbo_vae/*"

# 方案 B:额外下载 1080p 超分模型 (再加 61GB)
git lfs pull --include="1080p_sr/*"

期望目录结构

ComfyUI/models/daVinci-MagiHuman/
├── distill/          # 8 步蒸馏模型
├── turbo_vae/        # 快速解码器
├── 1080p_sr/         # 1080p 超分模型
└── base/             # (可选) 完整 32 步模型

架构亮点

daVinci-MagiHuman 采用了先进的 单流 Transformer 设计:

  • 参数量:15B (150 亿)
  • 层级结构:40 层,其中 0-3 层和 36-39 层为模态特定归一化(夹心层),中间 4-35 层为共享处理层。
  • 无时间步嵌入:摒弃了传统的时间步编码,依赖模型内部状态捕捉时序。
  • 按头门控 (Per-Head Gating):每个注意力头配备可学习的 Sigmoid 门控,动态调节信息流,提升多模态融合效率。
© 版权声明

相关文章

暂无评论

none
暂无评论...