阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

阿里通义实验室 Wan 团队近日推出了一款专为视频创建和编辑设计的一体化视频编辑框架——VACE。该框架集成了多种视频任务,包括参考到视频生成(R2V)、视频到视频编辑(V2V)和蒙版视频到视频编辑(MV2V),用户可以自由组合这些任务,从而探索更多可能性并有效简化工作流程。VACE 提供了诸如 Move-Anything、Swap-Anything、Reference-Anything、Expand-Anything、Animate-Anything 等一系列强大功能。

例如,你想要生成一个视频,其中包含一个角色从一个场景移动到另一个场景。传统方法可能需要多个模型分别处理生成、编辑和动画任务,而 VACE 可以在一个模型中完成所有这些操作。如,你可以提供一张角色的图片和一个动作轨迹,VACE 就能生成一个视频,让角色按照指定的方向移动,同时保持场景的连贯性和叙事一致性。

阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

创新的统一解决方案

VACE 在单一模型中创新性地整合了视频生成和编辑的多种功能,极大地简化了用户的创作流程。无论是从文本到视频的生成,还是对现有视频进行复杂的编辑,VACE 都能在同一个框架下完成,避免了传统创作中需要多个模型协同工作的繁琐过程。

强大的视频重渲染能力

VACE 能够执行视频重渲染,包括内容保留、结构保留、主体保留、姿势保留和动作保留等多种功能。这意味着用户可以在不破坏原有视频核心元素的前提下,对视频进行自由的编辑和修改。

高效的技术架构

VACE 基于扩散变换器(Diffusion Transformer)结构,能够灵活处理多种视频任务。通过引入 Video Condition Unit(VCU)和 Context Adapter 结构,VACE 能够适应不同的输入模态和任务需求,显著提升视频生成和编辑的效率与质量。例如,用户想要生成一个角色从一个场景移动到另一个场景的视频,传统方法需要多个模型分别处理生成、编辑和动画任务,而 VACE 可以在一个模型中完成所有操作。用户只需提供角色图片和动作轨迹,VACE 就能生成一个场景连贯、叙事一致的视频。

主要功能

  • 视频生成
    • 文本到视频生成(T2V):根据文本描述生成视频。
    • 参考到视频生成(R2V):根据参考图像生成视频,确保特定内容(如人物、物体)出现在生成的视频中。
  • 视频编辑
    • 视频到视频编辑(V2V):对输入视频进行整体修改,如上色、风格化或可控生成。
    • 遮罩视频编辑(MV2V):仅对输入视频的特定区域进行修改,如修复、扩展或局部编辑。
  • 任务组合
    • 支持多种任务的组合,如“移动任何内容”、“动画化任何内容”、“替换任何内容”等。
  • 其他功能
    • 深度控制:通过深度图生成视频。
    • 姿态转移:根据姿态图生成视频。
    • 运动转移:根据运动布局生成视频。

主要特点

  • 统一框架:VACE 将多种视频任务整合到一个模型中,减少了部署和用户交互的成本。
  • 灵活输入:通过 Video Condition Unit(VCU),VACE 支持多种输入模态(如文本、图像、视频、遮罩),并将其统一为一个接口。
  • 任务适应性:通过 Context Adapter 结构,VACE 能够根据不同任务的需求注入不同的概念,灵活处理各种视频合成任务。
  • 高质量生成:基于扩散变换器(Diffusion Transformer)结构,VACE 能够生成高质量、高分辨率的视频内容。
  • 高效训练:VACE 提出了 Context Adapter Tuning 方法,避免了全模型微调,加快了训练速度并支持插件式功能。

工作原理

  • Video Condition Unit(VCU):VCU 是一个统一的输入接口,将文本、视频帧和遮罩序列整合为一个输入格式。其形式为 V = [T; F; M],其中 T 是文本提示,F 是上下文视频帧序列,M 是遮罩序列。VCU 支持 T2V、R2V、V2V、MV2V 和任务组合等多种任务。
  • Context Adapter:通过 Context Adapter 结构,VACE 能够将不同任务的概念(如编辑区域、参考内容)注入模型中。Context Adapter 通过协作的时空表示实现任务的自适应处理。
  • 训练策略:VACE 提出了两种训练策略。一种是全模型微调,将 VCU 输入整合到扩散变换器模型中,对整个模型进行微调;另一种是 Context Adapter Tuning,仅训练 Context Adapter 和 Context Embedder,冻结扩散变换器的参数,从而加快训练速度并支持插件式功能。
  • 数据构建:VACE 构建了一个包含 480 个样本的多任务基准数据集,涵盖 12 种不同任务,用于评估模型的性能。
阿里通义实验室 Wan 团队推出一体化视频编辑框架 VACE

VACE 的推出为视频创作和编辑领域带来了新的可能性,其强大的功能和高效的技术架构将极大地提升用户的创作效率和体验。

© 版权声明

相关文章

暂无评论

none
暂无评论...