英伟达推出新型的视频生成模型内容-运动潜在扩散模型(Content-Motion Latent Diffusion Model,简称CMD),这个模型是为了解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题。
CMD模型通过创新的内容-运动分解方法,有效地提高了视频生成的效率和质量,同时降低了计算资源的需求,为视频内容的自动化生成提供了新的可能性。
主要功能与特点:
- 高效生成:CMD能够以更高的效率生成视频,例如,它可以在3.1秒内生成一段分辨率为512×1024、长度为16帧的视频,比以前的方法快7.7倍。
- 质量提升:在WebVid-10M数据集上,CMD在FVD(Fréchet Video Distance,一种衡量视频质量的指标)上达到了238.3的分数,比之前的最好成绩提高了18.5%。
- 内存与计算优化:与现有的视频扩散模型相比,CMD在采样时只需要大约66%的GPU内存,同时减少了大约16.7倍的计算量。
工作原理:
- 内容-运动分解:CMD模型通过一个自编码器将视频编码为两部分:内容帧(类似于图像)和低维的运动潜在表示。内容帧代表了视频中的共同内容,而运动潜在表示则代表了视频中的基本运动。
- 内容帧生成:通过微调预训练的图像扩散模型来生成内容帧,这样可以利用预训练模型中丰富的视觉知识。
- 运动潜在表示生成:通过训练一个新的轻量级扩散模型来生成运动潜在表示,这个模型专门用于处理视频中的运动信息。
评论0