OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

视频模型12小时前发布 小马良
3 0

视频生成领域,一个长期挑战是:如何让用户通过简单指令(如文本、草图或相机轨迹),灵活定制视频中一个或多个主体的外观、动作与空间关系?

由约翰·霍普金斯大学、Adobe 研究院、香港大学、香港中文大学与上海交通大学联合提出的工作 OmniVCus,提供了一种新的解决方案。它不依赖迭代优化,而是采用前馈式生成架构,结合多模态控制条件,实现高效、可控的主题驱动视频定制。

本仓库是基于论文公开方法与数据,使用公开代码重新训练的可复现实现,后续将持续完善。

OmniVCus:用多模态控制信号实现前馈式主题驱动视频定制

核心能力:不止于“生成”,而是“定制”

OmniVCus 的目标不是从零生成一段视频,而是在已有主体基础上,按用户意图进行编辑与重组。其关键能力包括:

  • 多主体定制:即使训练时仅见单主体,推理时也能生成包含多个主体的协调视频;
  • 指令式编辑:通过自然语言指令修改主体姿态、动作或风格(如“将人物转为水彩风格”);
  • 零样本组合:支持训练未见过的主体组合,实现泛化定制;
  • 多模态控制:同时接受文本、深度图、掩码、相机轨迹等多种信号,精确引导生成过程。

例如,用户可提供一张人物图像 + 一段文本“跳舞”,再叠加一个深度图控制其在 3D 空间中的位置,OmniVCus 即可生成一段符合所有条件的视频。

技术突破:三大关键设计

1. VideoCus-Factory:自动构建训练数据对

现有方法缺乏高质量的“输入-输出”视频定制对。OmniVCus 提出 VideoCus-Factory 数据构建管道,从无标签原始视频中自动:

  • 使用多模态大模型(如 Kosmos-2)检测主体并生成语义描述;
  • 提取深度图、实例掩码、相机轨迹等控制信号;
  • 通过数据增强与过滤,构建可用于训练的多主体定制样本。

这解决了多主体视频定制缺乏监督信号的根本问题。

2. Lottery Embedding(LE):突破主体数量限制

训练时仅使用有限数量的主体,但希望推理时支持任意数量组合?OmniVCus 引入 Lottery Embedding 机制:

  • 在训练阶段,通过稀疏激活策略,让有限主体“激活”更多帧级嵌入;
  • 推理时,这些嵌入可被新主体复用,实现超训练规模的主体定制

3. Temporally Aligned Embedding(TAE):提升时序控制精度

为确保控制信号(如深度图序列)与视频帧严格对齐,OmniVCus 设计 TAE

  • 为噪声标记与对应控制信号分配相同的帧嵌入
  • 使模型在去噪过程中天然对齐时空信息,显著提升动作连贯性与空间一致性。

4. Image-Video Transfer Mixed(IVTM)训练

将图像编辑任务(如风格迁移、局部重绘)与视频定制任务混合训练,使模型学会:

  • 将图像级编辑能力迁移到视频时序中;
  • 实现“指令式视频编辑”,如“给视频中的人物换衣服”。

模型架构

OmniVCus 基于 扩散 Transformer(DiT) 构建,将文本、参考图像、控制信号(深度/掩码/轨迹)等多模态输入统一编码为一维标记序列,通过前馈方式一步生成完整视频。

不同于需多次迭代或微调的方案,OmniVCus 无需 test-time optimization,生成速度快,适合实际部署。

实验结果

在多项基准测试中,OmniVCus 显著优于现有方法:

  • 多主体协调性:生成的多主体视频在动作同步、空间布局上更合理;
  • 控制保真度:深度图能准确控制主体远近,掩码可精准实现纹理替换;
  • 指令对齐度:用户研究显示,其在“提示-视频匹配度”“主体身份保持”“整体质量”三项指标上均领先;
  • 零样本泛化:可生成训练未见的主体组合(如“猫+汽车”共同运动)。

潜在应用场景

  • 视频创作工具:创作者输入草图+文本,快速生成主题视频;
  • 影视后期:根据剧本指令自动生成角色特定动作或场景;
  • AR/VR 内容生成:动态生成符合用户交互意图的虚拟角色;
  • 个性化广告:按品牌需求定制含特定主体与风格的短视频。
© 版权声明

相关文章

暂无评论

none
暂无评论...