昆仑万维在上个月推出面向 AI 短剧创作的视频生成模型 SkyReels-V1后,又在近期开源SkyReels-A2,可以将任意视觉元素(如人物、物体、背景等)根据文本提示组装成合成视频,同时严格保持与参考图像的一致性。这一任务被称为 元素到视频(Elements-to-Video, E2V),其主要挑战在于保持每个参考元素的保真度、确保场景的连贯性以及生成自然的输出。
- 项目主页:https://skyworkai.github.io/skyreels-a2.github.io
- GitHub:https://github.com/SkyworkAI/SkyReels-A2
- 模型:https://huggingface.co/Skywork/SkyReels-A2
SkyReels-V1是基于腾讯开源的混元视频生成大模型 HunyuanVideo 微调而成,SkyReels-A2则改成了基于阿里开源的视频生成大模型Wan2.1微调而成。
例如,用户希望生成一个视频,描述的是“一位穿着汉服的女性在花园中跳舞,背景是樱花树”。用户可以提供以下输入:
- 参考图像:一张女性的面部特写、一张汉服的图片、一张花园背景的图片。
- 文本描述:“一位穿着汉服的女性在花园中跳舞,背景是樱花树。”
SkyReels-A2 会将这些输入转化为一个联合的文本和图像生成任务,生成一个符合描述的视频,同时生成对应的文本描述,如:“一位穿着汉服的女性在花园中跳舞,背景是盛开的樱花树。” 这种联合生成能力使得 SkyReels-A2 在处理复杂的多模态任务时表现出色。

主要功能
- 多元素视频生成:能够根据多个参考图像和文本提示生成高质量、自然的视频。
- 严格一致性保持:确保生成的视频中每个元素(如人物、物体、背景)与参考图像保持严格一致。
- 可控生成:通过文本提示和参考图像,用户可以精确控制生成视频的内容。
- 高效推理:优化了推理流程,提高了生成速度和输出稳定性。
主要特点
- 联合图像-文本嵌入模型:SkyReels-A2 设计了一种新颖的图像-文本联合嵌入模型,将多元素表示注入生成过程中,平衡元素特定的一致性与全局连贯性以及文本对齐。
- 数据管道设计:构建了一个全面的数据管道,用于生成用于模型训练的文本-参考-视频三元组。
- 优化的推理流程:通过多种加速策略(如 Context Parallel、CFG Parallel 和 VAE Parallel)优化推理流程,提高生成速度。
- 公开基准测试:引入了一个精心策划的基准测试 A2-Bench,用于系统评估 E2V 任务。
工作原理
SkyReels-A2 的工作原理基于以下步骤:
- 数据预处理:将参考图像和文本描述通过各自的 tokenizer 转换为离散的 token 序列。
- 噪声注入:使用吸收型掩码(absorbing mask)对 token 序列进行随机掩码,模拟噪声数据。
- 联合建模:通过一个双向解码器(decoder-only transformer)学习从掩码序列恢复到干净序列,同时处理文本和图像 token。
- 生成过程:在推理阶段,从一组掩码 token 开始,逐步解码,通过多次迭代的去噪过程生成最终的视频。
- 优化策略:通过 Context Parallel、CFG Parallel 和 VAE Parallel 策略优化推理速度,同时通过模型量化和参数级卸载策略降低 GPU 内存消耗。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...