苹果公司介绍了一个名为STIV(Scalable Text and Image Conditioned Video Generation)的系统,它是一种用于文本和图像条件下的视频生成方法。STIV系统通过综合研究模型架构、训练策略和数据策展策略,提出了一种简单且可扩展的文本图像条件下的视频生成方法。该框架通过帧替换将图像条件集成到扩散变换器(Diffusion Transformer,DiT)中,并通过联合图像-文本条件分类器自由引导(joint image-text conditional classifier-free guidance)来实现文本条件的集成。STIV能够同时执行文本到视频(T2V)和文本图像到视频(TI2V)任务,并且可以轻松扩展到各种应用,如视频预测、帧插值、多视图生成和长视频生成等。
例如,我们想要生成一个视频,内容是“一只穿着蓝色牛仔裤和白色T恤的可爱的袋鼠在南非约翰内斯堡的日落时分愉快地散步”。使用STIV系统,我们只需提供一个文本提示和(可选的)初始图像帧,STIV就可以根据这些条件生成视频。如果只提供文本提示,STIV将执行T2V任务;如果同时提供文本提示和初始图像帧,STIV将执行TI2V任务。
主要功能:
- 同时处理T2V和TI2V任务:STIV能够根据文本提示生成视频,也可以结合文本提示和初始图像帧生成视频。
- 可扩展性:STIV框架可以扩展到多种下游应用,如视频预测、帧插值、多视图生成和长视频生成。
主要特点:
- 简单可扩展的设计:STIV的设计简单,易于训练,并能适应多种任务。
- 高性能:在VBench T2V和I2V任务上,STIV模型表现出色,超越了多个领先的开源和闭源模型。
- 节省成本:STIV在图像生成上实现了成本节约,减少了GPU计算资源的使用。
工作原理:
STIV的核心在于将图像条件通过帧替换集成到DiT中,并将文本条件通过联合图像-文本条件分类器自由引导集成。在训练过程中,STIV替换噪声视频潜在帧的第一个帧为真实潜在帧,并在推理过程中应用JIT-CFG。此外,STIV还采用了一种新颖的缓存管理策略LCBFU(Least Computationally Beneficial and Frequently Used),以优化存储空间并提高计算效率。
具体应用场景:
- 内容创作:用户可以根据文本描述生成视频内容,用于社交媒体、广告或娱乐。
- 视频编辑:通过帧插值和视频预测,STIV可以用于视频编辑和增强,提高视频质量。
- 多视图生成:在虚拟现实和增强现实应用中,STIV可以生成同一场景的不同视角视频。
- 长视频生成:STIV可以用于生成长视频,例如通过生成关键帧和帧插值来填充关键帧之间的帧。
评论0