Adobe介绍了一个名为SUGAR(Subject-Driven Video Customization in a Zero-Shot Manner)的新技术,它是一种零样本(zero-shot)方法,用于根据特定主体(subject)定制视频。SUGAR能够根据用户提供的输入图像生成视频,并使视频的风格、动作等视觉属性与用户输入的文本描述相匹配。这项技术的核心在于,它不需要在测试时进行微调(fine-tuning),即可生成与文本对齐的视频,这在以往的方法中是难以实现的。
例如,如果用户上传了一张狗的图片,并输入文本“一只狗在雪地里快乐地奔跑”,SUGAR能够生成一段视频,视频中的狗与输入图片中的狗身份一致,同时在雪景中奔跑,展现出快乐的氛围。这展示了SUGAR如何根据输入图像和文本描述生成定制化的视频内容。
主要功能和特点
- 零样本学习能力:SUGAR不需要在测试时对模型进行微调,即可生成与文本描述相匹配的视频。
- 大规模合成数据集:为了实现零样本能力,SUGAR构建了一个包含2.5百万个图像-视频-文本三元组的合成数据集。
- 模型设计、训练策略和采样算法的改进:通过特殊的注意力机制设计、改进的训练策略和采样算法,SUGAR在身份保持、视频动态和视频-文本对齐方面取得了优于现有方法的结果。
工作原理
SUGAR的工作原理涉及以下几个步骤:
- 合成数据集构建:使用特定的管道生成包含图像、视频和文本三元组的大规模合成数据集。
- 模型设计:SUGAR扩展了基于变换器的扩散模型CogVideoX的架构,输入包括DINO嵌入、CLIP图像嵌入、文本嵌入和噪声潜在代码的组合。
- 训练策略:提出了不同的训练策略,如SUGAR-Mix、SUGAR-TS和SUGAR-TSF,以优化模型在合成数据集和真实世界视频数据集上的训练效果。
- 注意力机制设计:提出了选择性注意力机制,允许模型在保持身份的同时,更好地生成与文本对齐的视频。
- 采样算法改进:在采样过程中,通过调整身份和文本条件的指导比例,以及在早期采样阶段丢弃图像嵌入,来控制身份保持和动态程度。
具体应用场景
SUGAR的应用场景包括但不限于:
- 个性化娱乐内容制作:用户可以根据自己的照片创建个性化的视频内容,如舞蹈视频、动画等。
- 广告和营销:根据产品特点和目标受众,定制视频广告,提高广告的吸引力和针对性。
- 社交媒体:用户可以在社交媒体上分享根据自己照片生成的有趣视频,增加互动和娱乐性。
- 电影和游戏制作:在电影或游戏中创建动态背景视频,或生成特定角色的动态场景,提高制作效率和创意表达。
评论0