UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

视频模型22小时前发布 小马良
7 0

长久以来,视频 AI 能力被割裂为多个独立任务:

  • 理解:靠视觉语言模型(如 Qwen-VL)
  • 生成:依赖扩散模型(如 Sora、HunyuanVideo)
  • 编辑:需专门的编辑网络或掩码引导

这种碎片化架构不仅增加部署复杂度,也限制了跨任务协同能力。

滑铁卢大学快手可灵团队联合提出的 UniVideo,首次将这三大能力整合进单一统一框架,用户只需一个模型,即可完成从“看懂视频”到“生成新视频”再到“自由编辑”的完整闭环。

此模型基于HunyuanVideo(生成基座)、Qwen2.5-VL(理解基座)、MetaQueries(查询系统)开发。

UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

核心能力:三大任务,一套系统

  1. 视频理解
    可回答多模态问题,如:“视频中女孩穿的是什么颜色的裙子?”、“钢琴是否在画面中央?”
    在 MMBench 等基准上达到 83.5 分,媲美专用理解模型。
  2. 视频生成
    • 文本到视频:输入“一个穿粉色连衣裙的女孩在海边弹钢琴”,生成对应高清视频
    • 图像到视频:上传一张静态人像,扩展为自然动作序列(如眨眼、转头)
    • 生成质量在多个指标上达到或超越当前顶尖模型
  3. 视频编辑
    支持无掩码(mask-free)的自由形式编辑:

    • 替换人物身份(“把弹钢琴的女孩换成穿西装的男性”)
    • 改变场景风格(“将海边背景换成夜晚森林”)
    • 调整物体属性(“让钢琴变成红色”)
      编辑后仍保持主体身份一致、动作流畅、视觉连贯
  4. 上下文感知生成/编辑
    基于参考图像或视频片段,生成风格或身份一致的新内容。例如:

    给一张用户自拍 + 文字“在火星上跳舞”,生成该用户形象在火星场景中跳舞的视频。


技术架构:双流协同,语义驱动

UniVideo 采用双分支架构,实现理解与生成的深度耦合:

  • 理解分支(基于 Qwen2.5-VL)
    接收文本、图像、视频等多模态输入,解析用户意图,输出结构化语义指令。
  • 生成分支(基于 HunyuanVideo 扩展的 MMDiT)
    接收理解分支的语义信号 + 视觉输入(经 VAE 编码),通过扩散过程生成视频。
  • 关键创新:可训练连接器(MLP)
    两分支通过轻量级连接模块进行信息交互,确保生成过程严格遵循语义指令,避免“图文不符”。

训练采用多任务联合学习,同时优化文本到视频、图像到视频、上下文编辑等任务,提升泛化能力。

为何“统一”如此重要?

  • 降低使用门槛:开发者无需集成多个模型,简化 pipeline
  • 提升一致性:理解与生成共享语义空间,减少指令偏差
  • 支持复杂指令:例如“把视频中穿红衣服的人换成穿蓝衣服,并让他走向镜头”——需先理解、再编辑,传统方案难以协同
  • 节省资源:单一模型部署,减少显存与计算开销

局限与未来方向

  • 当前依赖高质量参考图像/视频,对模糊输入泛化有限
  • 长视频生成(>8 秒)仍具挑战
  • 自由编辑的物理合理性(如光影、遮挡)需进一步优化
© 版权声明

相关文章

暂无评论

none
暂无评论...