清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

视频模型3个月前发布 小马良
94 0

一段文字描述 + 一张人物照片 + 一段语音音频,能否生成一个口型同步、动作自然、形象一致的高质量人物视频?

现在,可以了。

清华大学与字节跳动智能创作团队合作推出 HuMo(Human-Centric Video Generation via Collaborative Multi-Modal Conditioning),一个专注于人类视频生成(HCVG)的新一代多模态生成框架。它支持从文本、图像和音频的任意组合输入中,生成高保真、可控性强的人类活动视频。

无论是虚拟主播、数字人内容创作,还是个性化短视频制作,HuMo 都展现出强大的灵活性与实用性。

清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架

三种输入方式,满足不同创作需求

HuMo 的核心优势在于其对多模态输入的灵活支持,用户可根据已有资源自由选择输入组合:

✅ 文本 + 图像 → 视频

输入一段文字描述和一张参考图(如真人照片或角色设定图),生成符合描述的动作视频,且人物外貌保持高度一致。

示例:输入“一位穿红色旗袍的女性在雨中撑伞行走”,并附上某演员的照片,HuMo 可生成该演员形象在相应场景下的动态视频。

✅ 文本 + 音频 → 视频

无需提供图像,仅通过文本提示和语音音频即可生成口型同步的人物视频。适用于有声书、播客可视化等场景。

模型会自动构建合理的人物外观,并确保唇部运动与语音节奏精准匹配。

✅ 文本 + 图像 + 音频 → 视频

三者协同控制,实现最高级别的定制化:

  • 外观来自参考图像,
  • 动作由文本引导,
  • 唇部与音频严格同步。

这是目前最接近“可控数字人”的生成模式。

关键技术:如何实现高质量协同生成?

HuMo 并非简单拼接多模态信息,而是通过一套系统性设计,让文本、图像、音频在生成过程中协同作用。

1. 高质量多模态数据集构建

研究团队构建了一个大规模配对数据集,包含:

  • 精确对齐的文本描述;
  • 与主体语义一致但视觉不同的参考图像(通过跨视频检索获得);
  • 经过语音增强和唇形对齐校验的音频片段。

这为模型学习“同一人物在不同表现形式下的统一性”提供了坚实基础。

2. 两阶段训练范式

为避免多任务干扰,HuMo 采用分阶段训练策略:

阶段目标
第一阶段专注主体一致性:通过将参考图像的 VAE 潜变量沿时间维度注入噪声序列,使模型学会保留输入人物特征,同时响应文本指令
第二阶段引入音频同步能力:加入音频交叉注意力机制,并采用“预测聚焦策略”,强化语音与面部动作(尤其是嘴唇)的关联

这种渐进式学习有效提升了各模态间的协调性。

3. 时间自适应 CFG 推理策略

在推理阶段,HuMo 使用一种时间自适应分类器自由引导(Time-Adaptive CFG)策略:

  • 在去噪的不同阶段,动态调整文本、图像、音频的引导权重;
  • 早期侧重整体结构与身份保持,后期加强细节与同步精度;
  • 实现更稳定、细粒度的多模态控制。

这一策略显著提升了生成结果的可控性与自然度。

实际效果:优于现有方法

在多个基准任务上的测试表明,HuMo 在关键指标上优于当前主流方案:

任务对比优势
主体保持相比 MAGREF、HunyuanCustom 和 Phantom,在身份一致性、文本对齐和视觉质量综合表现更优
音频-视觉同步在 Lip Sync Error(LSE)和 SyncNet 准确率上接近 OmniHuman-1,具备实用级同步能力
可编辑性支持基于文本修改服装、表情、姿态等属性,而无需重新提供图像

消融实验也验证了:两阶段训练、预测聚焦、时间自适应 CFG 三项设计均对最终性能有显著贡献。

© 版权声明

相关文章

暂无评论

none
暂无评论...