英伟达近日发布了最新的 DLSS SDK 310.3.0 版本,在推出 DLSS 4 正式版的同时,还带来了一项关键改进:将基于 Transformer 的上行缩放模型(upscaling model)的显存 占用降低了 20%。这一优化有助于减轻高端图像放大技术对显存资源的压力。

值得注意的是,这项优化仅适用于 Transformer 模型,不涉及帧生成(Frame Generation)部分。
Transformer 模型显存 占用大幅下降
此前,英伟达的 Transformer 上行缩放模型因其出色的画质表现而备受关注,但其高昂的内存消耗也成为短板——相比旧有的 CNN 模型,它的显存 使用几乎翻倍。
在最新更新中,这一差距已显著缩小:
- 在 1080p 分辨率下,Transformer 模型从原来的 106.9MB显存 减少至 85.77MB
- 相比之下,CNN 模型仅占用 60.83MB显存
- 现在,Transformer 模型的内存消耗仅比 CNN 高约 40%
虽然绝对值仍有差距,但考虑到 Transformer 提供了更接近原生画质的图像效果,这样的优化已经非常可观。
不同分辨率下的显存 使用对比
| 分辨率 | 新 Transformer 模型 | 旧 Transformer 模型 | CNN 模型 |
|---|---|---|---|
| 1080p | 85.77 MB | 106.9 MB | 60.83 MB |
| 1440p | 143.54 MB | 181.11 MB | 97.79 MB |
| 4K | 307.37 MB | 387.21 MB | 199.65 MB |
| 8K | 1,225.17 MB (1.2GB) | 1,517.60 MB (1.5GB) | 778.3 MB |
VRAM 使用量随分辨率线性增长,因此在 8K 分辨率下,即使经过优化,Transformer 模型仍需占用超过 1.2GB 显存,远高于 CNN 模型的 778MB。
实际影响:提升空间有限,但方向正确
尽管减少了 20% 的内存使用,但在大多数现代显卡上,这种变化的实际影响并不明显。例如:
- 在 4K 下节省了 约 80MB显存
- 在 1440p 或 1080p 下节省更少
对于拥有 12GB、16GB 甚至 24GB 显存的 RTX 40 系列 GPU 来说,这点优化可能难以感知。不过,对于高分辨率场景(如 8K 渲染)或低显存 容量的设备来说,这样的改进仍然具有实际意义。
更重要的是,这次优化表明 英伟达正在持续改进 DLSS 架构,使其既能提供高质量输出,又能更高效地利用系统资源。
帧生成优化早已落地
需要强调的是,此次显存 优化仅针对上行缩放部分,而不包括帧生成模块。
早在 DLSS 4 推出时,英伟达就已对帧生成机制进行了重大改进,使得显存 使用量减少了 30%。帧生成通常比上行缩放消耗更多显存,举例来说:
在《战锤40,000:暗潮》中,4K 分辨率下使用 DLSS 4 帧生成相比 DLSS 3 可节省高达 400MB显存
这说明,英伟达正在多维度推动 DLSS 技术的轻量化和性能优化。
展望未来:DLSS 技术将持续进化
随着 DLSS 4 的正式发布,以及 Transformer 模型的不断优化,我们可以期待未来的版本进一步压缩 DLL 文件体积、提升推理效率,并引入更先进的 AI 架构。
正如历史所显示的那样,英伟达通常会在新版本中继续精简模型规模。例如在 DLSS 3.8.10 中,就曾通过算法压缩实现类似的优化效果。
这意味着,DLSS 技术正朝着“更强画质 + 更低开销”的方向稳步前进。















