ComfyUI 动态显存革命：告别显存不足，让 56GB 模型在 32GB 显存上丝滑运行

33 0

在 AI 绘画与视频生成领域，显存（VRAM）和系统内存（RAM） 一直是限制创作者发挥的最大瓶颈。面对动辄数十 GB 的图像和视频模型，许多用户不得不忍受频繁的“显存不足（OOM）”崩溃，或是依赖缓慢的系统分页文件（Swap），导致生成速度骤降。

官方说明：https://blog.comfy.org/p/dynamic-vram-in-comfyui-saving-local

今日，ComfyUI 正式推出了 动态显存 (Dynamic Memory) 系统。这是一次底层架构的重构，彻底解决显存危机，让最大的开源模型也能在消费级硬件上高效运行。

核心突破：从“预测加载”到“按需故障处理”

传统的 PyTorch 显存管理依赖于预先分配：在推理开始前，系统必须估算并加载所有权重到显存中。如果估算错误或显存不足，程序就会崩溃或被迫使用慢速硬盘交换。

动态显存 引入了一个自定义的 PyTorch 分配器，彻底改变了这一逻辑：

1. 虚拟基址寄存器 (VBAR)：零成本占位

机制：加载模型时，ComfyUI 不再立即占用物理显存，而是创建一个 VBAR。它只消耗 GPU 的虚拟地址空间，物理显存占用为零。
优势：你可以瞬间“加载”一个 56GB 的模型，而实际上没有任何数据被搬入显存。

2. `fault()` API：毫秒级按需加载

机制：只有当计算真正需要某一层权重的那一毫秒，系统才会通过 fault() API 将该部分数据调入显存。
效果：实现了真正的流式推理。数据只在需要时存在，用完即释放或降级。

3. 智能分级与水位线系统

优先级管理：最近使用的权重拥有最高优先级。
自动驱逐：当显存紧张时，系统会自动驱逐低优先级权重。
水位线保护：一旦某部分权重被驱逐，系统会设置“水位线”，防止程序无谓地反复尝试加载已满的显存，避免性能抖动。

4. 未提交显存映射 (Uncommitted Memory Mapping)

新加载器：ComfyUI 现在使用自定义的 safetensors 加载器，将模型文件以未提交的文件支持显存方式映射。
操作系统协作：这些显存处于“未提交”状态，操作系统可以随时回收它们给其他程序使用，而不会导致 ComfyUI 崩溃。当 ComfyUI 再次需要时，OS 会自动从高速 NVMe SSD 重新读取。
告别分页文件：以前显存不足时会写入缓慢的系统分页文件（Swap），现在直接释放显存并回退到未提交状态，彻底消除了因 Swap 导致的卡顿。

性能飞跃：基准测试与现实意义

实测数据

视频工作流 (Windows, RTX 4060/5060, 32GB RAM)：
- 成功运行总大小为 56GB (2x28GB fp16) 的扩散模型。
- 在传统模式下，这需要至少 64GB+ 显存且极易崩溃，现在丝滑运行。
Flux 2 Dev (Linux, Blackwell 6000 Pro)：
- 模型加载时间显著缩短，近乎瞬时。
- 整体工作流执行速度提升，消除了因显存交换带来的延迟。

ComfyUI 动态显存革命：告别显存不足，让 56GB 模型在 32GB 显存上丝滑运行

用户体验改进

特性	传统模式	动态显存模式
大模型加载	缓慢，易 OOM	瞬时加载，永不 OOM
显存占用	固定高位，无法释放	动态伸缩，按需分配
分页文件 (Swap)	频繁使用，导致卡顿	完全避免
显存利用率	保守，常有闲置	极高，充分利用最快显存
多模型切换	需手动卸载，繁琐	自动平衡，无缝切换

💡 关于任务管理器的提示：
在 Windows 任务管理器中，你可能仍会看到较高的显存占用。这是 ComfyUI 的智能缓存策略：如果有空闲显存，它会留住权重以加速下次调用。但关键在于，这些缓存永远不会被推送到分页文件。一旦其他应用需要显存，ComfyUI 会立即释放，确保系统流畅。