昆仑万维推出SkyReels-V2:首个基于扩散强制框架的无限长度电影生成模型

视频模型8个月前发布 小马良
317 0

近年来,视频生成领域取得了显著进展,主要得益于扩散模型和自回归框架的推动。然而,这一领域仍面临诸多关键挑战,例如提示一致性、视觉质量、动态效果和视频时长之间的权衡。为了追求更高的视觉质量,许多模型不得不牺牲动态效果;为了提升分辨率,视频时长被限制在5到10秒之间。此外,由于通用多模态大语言模型对电影语法(如镜头构图、演员表情和摄像机运动)的理解不足,生成的内容往往缺乏专业电影风格。

为了解决这些问题,昆仑万维推出了 SkyReels-V2,这是世界上首个基于扩散强制框架的无限长度电影生成模型。该模型在阿里的视频生成模型Wan2.1基础上进一步训练,结合了多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强制等技术,实现了全面优化。除了技术上的创新,SkyReels-V2还支持多种实际应用场景,包括故事生成、图像到视频合成、摄像导演功能,以及通过Skyreels-A2系统实现多主体一致的视频生成。

SkyReels-V2 的方法论

SkyReels-V2 的方法论由多个相互连接的组件组成,涵盖了数据处理、模型架构设计、训练策略和后训练优化等多个方面。

1. 数据准备与Video Captioner架构

SkyReels-V2 的起点是一个全面的数据处理管道,用于收集和准备高质量的训练数据。其核心是 Video Captioner 架构,该架构能够为视频内容提供详细的注释。这些注释不仅帮助模型理解视频中的语义信息,还为其生成能力奠定了基础。

模型采用了多任务预训练策略,通过构建基本的视频生成能力,为后续优化打下坚实基础。在此基础上,SkyReels-V2 进行了一系列后训练优化,包括强化学习以提高动作质量、扩散强制训练用于生成较长视频,以及高质量监督微调(SFT)阶段用于视觉细化。

2. 强化学习:提升运动质量

生成模型的一个主要缺点是处理大型、可变形运动的能力较弱,且生成的视频可能违反物理定律。为此,SkyReels-V2 引入了强化学习技术,专注于提升运动质量。为了避免在其他指标(如文本对齐和视频质量)上退化,研究团队提出了一种半自动流水线,战略性地结合了自动生成的运动对与人工标注结果。这种方法不仅扩大了数据规模,还通过质量控制提高了模型与人类偏好的一致性。

3. 扩散强制:解锁无限长度视频生成

扩散强制是一种创新的训练和采样策略,其中每个标记被分配一个独立的噪声水平。这种方法允许模型根据任意的每标记时间表进行去噪,从而实现部分遮罩的效果。扩散强制训练模型“揭开”任何组合的变噪声标记,使用更干净的标记作为条件信息来指导噪声标记的恢复。基于此,SkyReels-V2 能够根据前一段的最后几帧无限期扩展视频生成,真正实现了无限长度的视频合成。

4. 高质量监督微调(SFT)

SkyReels-V2 在540p和720p分辨率下分别进行了两个连续的高质量监督微调阶段。初始SFT阶段在预训练之后但在强化学习阶段之前进行,作为概念平衡训练器,基于仅使用fps24视频数据的基础模型预训练结果,并移除了FPS嵌入组件以简化架构。随后,在完成扩散强制阶段后,模型执行了720p下的二次高分辨率SFT,采用更高质量的概念平衡数据集进行精炼,进一步提升了整体视频质量。

SkyReels-V2 的关键贡献

1. Video Captioner:精准的视频标注

SkyCaptioner-V1 是 SkyReels-V2 的视频标注模型,基于基础模型 Qwen2.5-VL-72B-Instruct 的标注结果和子专家标注者在一个精心策划的平衡视频数据集上训练而成。该数据集包含约200万个视频,确保了概念平衡和标注质量。经过微调后,SkyCaptioner-V1 在特定领域的视频标注任务中表现出色,尤其在与镜头相关的领域中显示出了显著优势。

2. 性能评估:超越现有模型

为了全面评估 SkyReels-V2 的性能,研究团队构建了 SkyReels-Bench 用于人工评估,并利用开源的 V-Bench 进行自动化评估。结果显示:

  • 在文本到视频生成任务中,SkyReels-V2 在指令遵循度(3.15)方面取得了显著进步,同时在动作质量(2.74)和一致性(3.35)上保持竞争力。
  • 在图像到视频生成任务中,SkyReels-V2-I2V 和 SkyReels-V2-DF 在开源模型中达到了最先进的性能,平均得分分别为 3.29 和 3.24,显著优于 HunyuanVideo-13B(2.84)和 Wan2.1-14B(2.85)。
  • 在 V-Bench 评估中,SkyReels-V2 的总分(83.9%)和质量分(84.7%)均领先于所有对比模型,尽管语义分略低于 Wan2.1-14B,但人类评估表明其在实际应用中表现更优。
© 版权声明

相关文章

暂无评论

none
暂无评论...