在 AI 视频生成领域,显存(VRAM) 一直是阻碍普通用户体验高质量模型的“拦路虎”。通常,运行一个 150 亿参数的单流 Transformer 模型需要企业级显卡(如 A100/H100)。
- GitHub:https://github.com/mjansrud/ComfyUI-DaVinci-MagiHuman
ComfyUI-DaVinci-MagiHuman 自定义节点专为 daVinci-MagiHuman 模型打造,通过创新的块级 CPU/GPU 交换技术和异步预取机制,成功将这一庞然大物优化至可在 RTX 5090/4090 等消费级显卡上流畅运行,并支持 1080p 超分辨率 与 音视频联合生成。

核心黑科技:如何让 15B 模型在 24GB 显存上奔跑?
该节点不仅仅是模型的简单封装,更包含了一系列针对消费级硬件的深度优化:
1. 块级 CPU/GPU 交换 (Block-wise Swapping)
- 原理:daVinci-MagiHuman 拥有 40 层 Transformer。传统方式需将所有层加载到显存,而本节点仅将当前计算所需的 8 层保留在 GPU 上,其余层暂存于系统内存(CPU RAM)。
- 效果:显存占用从 30GB+ 骤降至 6GB 左右(不含开销),使得 24GB-32GB 显存的显卡也能轻松驾驭。
2. 异步 CUDA 预取 (Async CUDA Prefetch)
- 原理:利用 CUDA 流并行特性,在当前块进行计算时,后台同时从 CPU 内存传输下一个块的数据到 GPU。
- 效果:完美掩盖了数据搬运的延迟,实现了“计算 - 传输”重叠,大幅提升了生成速度,避免了频繁交换带来的卡顿。
3. 蒸馏模式 (Distillation Mode)
- 8 步极速生成:内置蒸馏模型,仅需 8 步去噪 即可产出高质量视频,无需复杂的无分类器引导(CFG),推理速度提升 4 倍以上。
4. 1080p 超分 + TurboVAE
- 潜空间放大:内置专用超分模型,可将 256p 的基础生成结果直接放大至 1080p,细节损失极小。
- 滑动窗口解码:TurboVAE 解码器采用滑动窗口技术,支持将解码任务卸载,避免高分辨率解码时的显存爆炸。
功能全景:音画同步,单流生成
- 🎥 + 🎵 音视频联合生成:基于单流 Transformer 架构,同时生成视频画面与配套音频,确保口型、动作与声音的完美同步。
- 📝 强大文本编码:支持 T5Gemma-9B 作为文本编码器(需外部输入或占位符测试),理解复杂提示词能力卓越。
- 🛠️ 完整工作流节点:
DaVinci Model Loader:灵活配置blocks_on_gpu数量。DaVinci Super Resolution:一键开启 1080p 超分。DaVinci Video Output:直接调用 FFmpeg 输出 MP4/WebM。
系统要求与显存指南
硬件门槛
- GPU:推荐 RTX 5090 或 RTX 4090 (24GB+)。最低支持 16GB 显存(需牺牲速度)。
- 内存 (RAM):建议 64GB 以上,用于存放交换的模型块。
- CUDA:必须支持 bf16 (Brain Floating Point 16)。
- 软件:Python, PyTorch, FFmpeg, safetensors。
显存 vs 速度平衡表
你可以根据自身显卡情况,在 DaVinci Model Loader 中调整 blocks_on_gpu 参数:
blocks_on_gpu | 显存占用 (估算) | 生成速度 | 推荐显卡配置 |
|---|---|---|---|
| 4 | ~3GB + 开销 | 🐢 最慢 | 16GB (RTX 4080/4070Ti Super) |
| 8 | ~6GB + 开销 | 🚀 良好 (默认) | 24-32GB (RTX 4090/5090) |
| 16 | ~12GB + 开销 | ⚡ 快速 | 48GB (RTX 6000 Ada) |
| 40 | ~30GB + 开销 | 🚄 最快 (全加载) | 80GB+ (A100/H100) |
安装与模型下载
1. 安装节点
在 ComfyUI Manager 中搜索 ComfyUI-DaVinci-MagiHuman 并安装,或手动克隆至 custom_nodes 目录。
2. 下载模型权重 (HuggingFace)
由于模型较大,建议使用 Git LFS 按需下载:
cd ComfyUI/models
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/GAIR/daVinci-MagiHuman
cd daVinci-MagiHuman
# 方案 A:仅下载蒸馏版 + VAE (约 61GB,推荐新手)
git lfs pull --include="distill/*,turbo_vae/*"
# 方案 B:额外下载 1080p 超分模型 (再加 61GB)
git lfs pull --include="1080p_sr/*"
期望目录结构:
ComfyUI/models/daVinci-MagiHuman/
├── distill/ # 8 步蒸馏模型
├── turbo_vae/ # 快速解码器
├── 1080p_sr/ # 1080p 超分模型
└── base/ # (可选) 完整 32 步模型
架构亮点
daVinci-MagiHuman 采用了先进的 单流 Transformer 设计:
- 参数量:15B (150 亿)
- 层级结构:40 层,其中 0-3 层和 36-39 层为模态特定归一化(夹心层),中间 4-35 层为共享处理层。
- 无时间步嵌入:摒弃了传统的时间步编码,依赖模型内部状态捕捉时序。
- 按头门控 (Per-Head Gating):每个注意力头配备可学习的 Sigmoid 门控,动态调节信息流,提升多模态融合效率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















