高度一致且可控制运动的图像动画生成方法Cinemo:将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息

莫纳什大学、上海人工智能实验室和南京邮电大学的研究人员推出Cinemo,它是一种用于图像动画化(也称为图像到视频生成,I2V)的新型方法。简单来说,Cinemo能够将一张静态图片转换成一段视频,并且在转换过程中保持图片原有的细节信息,如风格、背景和物体等,同时根据文本提示生成平滑且具有控制性的动作。

Cinemo引入了一个创新框架,专注于理解运动残差的分布,而非直接生成后续帧。此外,研究人员提出了一种基于结构相似度指数(SSIM)的有效方法来控制运动强度。另外,研究人员还提出了基于离散余弦变换(DCT)的噪声细化技术,以确保布局的一致性。这三种策略共同帮助 Cinemo 生成了高度一致且运动可控的图像动画结果。与先前的方法相比,Cinemo 提供了更简单且更精确的用户控制,以及更好的生成性能。

主要功能:

  • 图像动画化:将静态图像转换成动态视频。
  • 动作控制:根据文本提示,对视频中的动作进行精确控制。
  • 时间一致性:确保视频在时间轴上保持与输入静态图像的风格和细节一致性。

主要特点:

  1. 学习运动残差:Cinemo专注于学习运动残差的分布,而不是直接预测后续帧,这有助于提高视频帧质量和保持细节的一致性。
  2. 运动强度控制:通过结构相似性指数(SSIM)为基础的策略,实现对生成视频中动作强度的精细控制。
  3. 噪声优化技术:在推理阶段,使用基于离散余弦变换(DCT)的噪声优化技术,以减少视频中突然的运动变化。

工作原理:

  1. 训练阶段:Cinemo通过运动扩散模型学习运动残差,而不是直接预测下一帧图像。此外,使用基于SSIM的策略来控制动作的强度。
  2. 推理阶段:在生成视频时,Cinemo利用DCT技术提取输入静态图像的低频分量,以指导初始推理噪声的优化,从而稳定生成过程并减少不自然的运动变化。

具体应用场景:

  • 摄影和电影制作:将静态照片转换成具有动态效果的视频,增加视觉吸引力。
  • 增强现实(AR):在AR环境中,根据用户的交互生成与现实世界同步的动态视觉效果。
  • 个性化视频生成:用户可以根据自己的描述或脚本,生成具有特定动作和风格的个性化视频内容。

总的来说,Cinemo是一个强大的图像动画化工具,它通过先进的技术手段,使得静态图像能够以一种自然和控制性的方式动起来,为创意产业和个人娱乐带来了新的可能性。

0

评论0

没有账号?注册  忘记密码?