智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

在主体到视频(Subject-to-Video, S2V)生成任务中,目标是根据用户提供的多张目标主体参考图像和文本提示,合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展,但现有方法仍面临两大核心挑战:

  1. 多主体混淆:当输入多张参考图时,模型难以区分“同一个主体的不同视角”与“多个不同主体”,导致身份漂移;
  2. 背景泄漏:参考图像中的背景细节被错误地复制到生成视频中,破坏场景一致性。

为系统性解决这些问题,智谱AI推出了 Kaleido —— 一个从数据构建模型注入机制全面优化的 S2V 生成框架。它在主体一致性、背景解耦、跨姿态泛化方面显著优于现有方法。

智谱AI发布 Kaleido:通过多参考图像生成主体一致视频的 S2V 框架

问题根源与解决方案

问题 1:训练数据质量与多样性不足

现有 S2V 数据集普遍存在:

  • 高质量主体视频稀缺;
  • 缺乏“跨配对”样本(即主体来自同一身份但背景/姿态不同);
  • 背景与主体高度耦合,模型难以学习解耦表示。

Kaleido 的应对:构建专用数据管道

  • 从大规模视频中切分片段,自动生成字幕;
  • 基于主体分类体系(如“人物”“动物”“物体”)自动识别候选主体;
  • 使用 Grounding DINO + SAM 精确分割主体区域;
  • 通过 CLIP 分类、IoU 过滤、尺寸阈值、人工质量检查四重过滤,剔除低质样本;
  • 背景填充增强:将参考图像背景替换为纯色或噪声,迫使模型从文本提示中合成背景,而非复制参考图;
  • 姿态增强:利用 Flux Redux 为同一主体生成新姿态图像,提升模型对身份而非姿态的泛化能力。

问题 2:多参考图注入机制不鲁棒

传统方法将多张参考图简单拼接或平均融合,易导致特征混淆。

Kaleido 的应对:参考旋转位置编码(R-RoPE)

  • 在扩散 Transformer 的输入序列中,将参考图像特征与视频噪声序列沿序列维度拼接
  • 为参考图像引入空间偏移的位置编码,使其在时空嵌入空间中与视频帧可区分但关联
  • 该机制使模型能稳定对齐多视角参考图,同时避免身份混合。

主要功能与优势

✅ 多主体一致性

  • 支持单主体或多主体场景;
  • 即使输入包含不同姿态、光照、背景的参考图,仍能保持身份稳定;
  • 在多人交互场景中,各主体身份互不干扰。

✅ 背景解耦

  • 生成背景完全由文本提示控制,不复制参考图背景
  • 可实现“同一角色在不同场景中行动”的灵活创作。

✅ 高质量生成

  • 在时间连贯性、动作自然度、文本对齐方面表现优异;
  • 支持复杂动作(如转身、跳跃)与精细细节(如服装纹理、面部表情)。

实验结果

在多个 S2V 基准上的测试表明:

  • 量化指标:Kaleido 在主体一致性(S2V Consistency)上达到 0.723,显著优于开源(如 Wan、CogVideoX)与闭源模型;
  • 用户研究:在视频质量、身份保真、背景合理、文本对齐四项指标上,Kaleido 均获最高偏好率;
  • 定性对比:在多主体、复杂背景、跨姿态等挑战性场景中,Kaleido 无明显身份漂移或背景泄漏,而基线模型常出现“半人半兽”或“背景粘连”现象。
© 版权声明

相关文章

暂无评论

none
暂无评论...