中国科学院大学人工智能学院、中国科学院自动化研究所模式识别新实验室和腾讯AI实验室的研究人员推出ZeroSmooth,它能够提升预训练视频扩散模型生成高帧率视频的能力,而无需额外的训练数据和参数更新。简单来说,就是让计算机在不经过额外学习的情况下,更快地制作出更流畅的视频。通过大量实验验证了ZeroSmooth方法的有效性,特别是在不同流行的视频模型(如SVD、VideoCrafter和LaVie)上的应用,展示了该方法在提高视频帧率方面的潜力。
- 项目主页:https://ssyang2020.github.io/zerosmooth.github.io
- GitHub:https://github.com/ssyang2020/ZeroSmooth
例如,你是一名视频编辑,需要将一个普通帧率的视频转换为慢动作视频。使用ZeroSmooth,你可以快速地将视频的帧率提高,而不需要重新拍摄或对原始视频进行复杂的编辑处理。这就像给视频“加速”,但同时保持了画面的清晰度和流畅性,让观众能够看到更平滑、更详细的动作。
主要功能和特点:
- 无需训练提升帧率:ZeroSmooth能够在不重新训练模型的情况下,让视频生成模型产生更高帧率的视频。
- 即插即用:这个方法可以作为一种通用插件,适用于不同的视频生成模型。
- 时间一致性:通过自我级联架构和隐藏状态校正模块,ZeroSmooth能够保持关键帧和插值帧之间的时间一致性。
- 高视觉质量:即使在高帧率下,也能保持视频内容的质量和视觉效果。
工作原理:
ZeroSmooth的工作原理基于以下几个关键步骤:
- 自我级联架构:通过构建一个自我级联的视频扩散模型,该模型包含两个分支,一个用于短视频推理,另一个通过在变换器块中放置隐藏状态校正模块来适应长视频推理。
- 隐藏状态校正:利用变换器隐藏状态中的强时间相关性,通过背投影方法来校正隐藏状态,从而实现对插值帧的控制,保证帧与帧之间的连贯性。
- 校正强度控制:设计了一种控制校正强度的策略,通过线性插值的方式结合原始输出和校正输出,以调整模型对校正输出的依赖程度。
具体应用场景:
- 视频制作:在电影、电视和在线媒体中,使用ZeroSmooth可以快速生成高帧率、视觉流畅的视频内容。
- 虚拟现实和游戏:在VR和游戏中,更高的帧率可以提供更平滑和逼真的体验。
- 视频压缩:通过提高帧率,可以创建在保持质量的同时需要更少存储空间的视频,有助于视频压缩技术的发展。
- 慢动作效果:在体育赛事或电影中,高帧率视频可以用于创建慢动作效果,而不需要额外的摄影技术。
评论0