英伟达推出视频生成模型CMD：解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

新技术11个月前发布小马良

519 0

英伟达推出新型的视频生成模型内容-运动潜在扩散模型（Content-Motion Latent Diffusion Model，简称CMD），这个模型是为了解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题。

项目主页

CMD模型通过创新的内容-运动分解方法，有效地提高了视频生成的效率和质量，同时降低了计算资源的需求，为视频内容的自动化生成提供了新的可能性。

英伟达推出视频生成模型CMD：解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

主要功能与特点：

高效生成：CMD能够以更高的效率生成视频，例如，它可以在3.1秒内生成一段分辨率为512×1024、长度为16帧的视频，比以前的方法快7.7倍。

质量提升：在WebVid-10M数据集上，CMD在FVD（Fréchet Video Distance，一种衡量视频质量的指标）上达到了238.3的分数，比之前的最好成绩提高了18.5%。

内存与计算优化：与现有的视频扩散模型相比，CMD在采样时只需要大约66%的GPU内存，同时减少了大约16.7倍的计算量。

工作原理：

内容-运动分解：CMD模型通过一个自编码器将视频编码为两部分：内容帧（类似于图像）和低维的运动潜在表示。内容帧代表了视频中的共同内容，而运动潜在表示则代表了视频中的基本运动。

内容帧生成：通过微调预训练的图像扩散模型来生成内容帧，这样可以利用预训练模型中丰富的视觉知识。

运动潜在表示生成：通过训练一个新的轻量级扩散模型来生成运动潜在表示，这个模型专门用于处理视频中的运动信息。

新技术 # CMD # 英伟达

文章版权归作者所有，未经允许请勿转载。

新型故事视频生成框架DreamRunner：根据文本脚本生成长篇、多动作、多场景的视频，适用于CogVideoX模型

新技术 # DreamRunner # 视频生成

3个月前

01470

无需训练的概率并行解码算法SJD：用于加速自动回归文本到图像的生成模型

新技术 # SJD # 解码算法

5个月前

05370

新型文生图模型CountGen：根据文本提示准确地生成指定数量的对象

新技术 # CountGen # 文生图模型

8个月前

03030

Orient Anything：用于从单张图片中估计物体的方向

新技术 # Orient Anything

2个月前

01240

暂无评论

暂无评论...

英伟达推出视频生成模型CMD：解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

StyleCineGAN：从单张风景静图生成循环播放的动态图像

DragAPart：一张图片和加一系列拖动操作作为输入，生成新图片

相关文章

新型故事视频生成框架DreamRunner：根据文本脚本生成长篇、多动作、多场景的视频，适用于CogVideoX模型

无需训练的概率并行解码算法SJD：用于加速自动回归文本到图像的生成模型

新型文生图模型CountGen：根据文本提示准确地生成指定数量的对象

Orient Anything：用于从单张图片中估计物体的方向

暂无评论

文章

抖音出品的AI工具即梦：可生成图片、视频生成工具

阶跃星辰开源面向智能语音交互的框架Step-Audio：1300 亿参数的统一语音-文本多模态模型，能够实现语音理解与生成的统一

新型视频人脸超分辨率技术KEEP：让模糊不清的人脸视频变得清晰

开源漫画翻译工具manga-image-translator：提取漫画中的文字并完成翻译和填充

Stability AI释出Stable Diffusion 3 Medium模型，8G显存显卡即可使用

小冰推出Portrait4D-v2：创建出逼真的4D头部头像

英伟达推出视频生成模型CMD：解决现有视频生成技术在处理高维视频数据时所面临的高内存和计算需求问题

StyleCineGAN：从单张风景静图生成循环播放的动态图像

DragAPart：一张图片和加一系列拖动操作作为输入，生成新图片

相关文章

文章

标签云