智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

视频模型3个月前发布小马良

58 0

在主体到视频（Subject-to-Video, S2V）生成任务中，目标是根据用户提供的多张目标主体参考图像和文本提示，合成一段主体身份一致、动作自然、背景可控的视频。尽管近期 S2V 模型取得进展，但现有方法仍面临两大核心挑战：

多主体混淆：当输入多张参考图时，模型难以区分“同一个主体的不同视角”与“多个不同主体”，导致身份漂移；
背景泄漏：参考图像中的背景细节被错误地复制到生成视频中，破坏场景一致性。

为系统性解决这些问题，智谱AI推出了 Kaleido —— 一个从数据构建到模型注入机制全面优化的 S2V 生成框架。它在主体一致性、背景解耦、跨姿态泛化方面显著优于现有方法。

项目主页：https://criliasmiller.github.io/Kaleido_Project
GitHub：https://github.com/zai-org/Kaleido
模型：https://huggingface.co/zai-org/Kaleido-14B-S2V

智谱AI发布 Kaleido：通过多参考图像生成主体一致视频的 S2V 框架

问题根源与解决方案

问题 1：训练数据质量与多样性不足

现有 S2V 数据集普遍存在：

高质量主体视频稀缺；
缺乏“跨配对”样本（即主体来自同一身份但背景/姿态不同）；
背景与主体高度耦合，模型难以学习解耦表示。

Kaleido 的应对：构建专用数据管道

从大规模视频中切分片段，自动生成字幕；
基于主体分类体系（如“人物”“动物”“物体”）自动识别候选主体；
使用 Grounding DINO + SAM 精确分割主体区域；
通过 CLIP 分类、IoU 过滤、尺寸阈值、人工质量检查四重过滤，剔除低质样本；
背景填充增强：将参考图像背景替换为纯色或噪声，迫使模型从文本提示中合成背景，而非复制参考图；
姿态增强：利用 Flux Redux 为同一主体生成新姿态图像，提升模型对身份而非姿态的泛化能力。

问题 2：多参考图注入机制不鲁棒

传统方法将多张参考图简单拼接或平均融合，易导致特征混淆。

Kaleido 的应对：参考旋转位置编码（R-RoPE）

在扩散 Transformer 的输入序列中，将参考图像特征与视频噪声序列沿序列维度拼接；
为参考图像引入空间偏移的位置编码，使其在时空嵌入空间中与视频帧可区分但关联；
该机制使模型能稳定对齐多视角参考图，同时避免身份混合。

主要功能与优势

✅ 多主体一致性

支持单主体或多主体场景；
即使输入包含不同姿态、光照、背景的参考图，仍能保持身份稳定；
在多人交互场景中，各主体身份互不干扰。

✅ 背景解耦

生成背景完全由文本提示控制，不复制参考图背景；
可实现“同一角色在不同场景中行动”的灵活创作。

✅ 高质量生成

在时间连贯性、动作自然度、文本对齐方面表现优异；
支持复杂动作（如转身、跳跃）与精细细节（如服装纹理、面部表情）。

实验结果

在多个 S2V 基准上的测试表明：

量化指标：Kaleido 在主体一致性（S2V Consistency）上达到 0.723，显著优于开源（如 Wan、CogVideoX）与闭源模型；
用户研究：在视频质量、身份保真、背景合理、文本对齐四项指标上，Kaleido 均获最高偏好率；
定性对比：在多主体、复杂背景、跨姿态等挑战性场景中，Kaleido 无明显身份漂移或背景泄漏，而基线模型常出现“半人半兽”或“背景粘连”现象。

视频模型 # Kaleido # 智谱AI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

CogVideoX-Fun：基于CogVideoX结构修改后模型

CogVideoX-Fun：基于CogVideoX结构修改后模型

1年前

03810

腾讯推出专为生成开放世界游戏量身定制的DiT模型GameGen-O：通过模拟各种游戏引擎特性，如创新角色、动态环境、复杂动作和多样事件，促进了高质量、开放领域的生成

腾讯推出专为生成开放世界游戏量身定制的DiT模型GameGen-O：通过模拟各种游戏引擎特性，如创新角色、动态环境、复杂动作和多样事件，促进了高质量、开放领域的生成

视频模型 # DiT模型 # GameGen-O # 开放世界游戏

1年前

04600

阿里 WAN 项目组正式推出 Wan2.2：MoE 架构 + 高压缩设计，开源视频生成再进化

阿里 WAN 项目组正式推出 Wan2.2：MoE 架构 + 高压缩设计，开源视频生成再进化

视频模型 # Wan2.2 # 视频生成模型

8个月前

01,0810

Adobe推出TransPixar：通过文本和图像生成透明背景的视频

Adobe推出TransPixar：通过文本和图像生成透明背景的视频

视频模型 # TransPixar

1年前

02850

暂无评论

none

暂无评论...