无限光年、上海交通大学和复旦大学的研究人员推出新型框架MVideo,它专门设计用于生成具有精确、流畅动作的长时视频。MVideo通过结合文本提示和掩码序列(mask sequences)作为额外的运动条件输入,克服了传统文本到视频(T2V)模型在生成复杂动作视频时的局限性。这种双控制机制允许独立或同时修改文本提示或运动条件,以生成更具动态性的视频。
例如,假设用户想要生成一个视频,展示一个穿着红色和白色球衣的足球运动员跳起来胸部停球的场景。MVideo可以通过分析文本提示和相关的掩码序列(例如,足球运动员的动作掩码),生成一个精确捕捉到这一复杂动作的视频。
主要功能:
- 精确动作控制: 通过掩码序列提供更精确的动作表示,生成具有复杂动作的视频。
- 长时视频生成: 通过迭代生成短视频片段并拼接,实现长时视频的生成。
- 运动条件编辑与组合: 支持对运动条件的编辑和组合,以产生更复杂的动作。
主要特点:
- 双控制机制: 结合文本提示和掩码序列,提供更精确的动作控制。
- 自动掩码序列生成: 利用现有的视觉模型(如GroundingDINO和SAM2)自动生成掩码序列,提高效率和鲁棒性。
- 高效的迭代视频生成方法: 通过结合图像条件和低分辨率视频条件,减少计算成本,同时保持时间一致性。
工作原理
MVideo的工作原理基于以下几个关键步骤:
- 掩码序列提取: 使用GroundingDINO和SAM2模型自动从参考视频中提取目标对象的掩码序列。
- 掩码融合: 将掩码序列的运动特征与噪声潜在表示通过通道级联的方式融合,增强模型对复杂动作的生成能力。
- 长时视频生成: 通过迭代生成短视频片段并拼接,同时引入高分辨率图像条件和低分辨率视频条件,确保长视频在内容和动作上的连贯性。
- 训练损失: 除了扩散损失外,引入一致性损失,确保MVideo在训练过程中保持与原始文本条件的对齐能力。
具体应用场景
MVideo可以应用于多种场景,包括但不限于:
- 电影和游戏制作: 生成具有复杂动作序列的视频内容。
- 体育分析: 制作展示特定运动技巧和动作的视频。
- 教育和培训: 创建展示技术动作的教学视频。
- 虚拟现实和增强现实: 生成具有复杂动作交互的虚拟环境视频内容。
评论0