多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

视频模型4个月前发布 小马良
110 0

阿里达摩院、浙江大学、湖畔实验室的研究人员推出多模态扩散架构MoDA,用于生成具有任意身份和语音音频的“会说话的头像”(talking head)。

MoDA从单张图像、音频和其他模态信息生成逼真的、会说话的人物肖像视频。例如,给定一张人物照片和一段语音音频,MoDA可以生成该人物根据音频内容“说话”的视频,不仅嘴唇动作与音频同步,还能表现出自然的面部表情和头部动作。

多模态扩散架构MoDA:用于生成具有任意身份和语音音频的“会说话的头像”

主要功能

  • 高保真肖像动画生成:从单张图像和音频生成高质量的会说话的头像视频。
  • 多模态融合:整合音频、身份、情感等多种模态信息,生成自然的面部表情和头部动作。
  • 实时生成:支持实时视频生成,适用于实时交互场景。
  • 细粒度表情控制:能够对生成的面部表情进行精细控制,如愤怒、快乐、悲伤等情绪的表达。
  • 长视频生成:支持生成长时间的视频,而不仅仅是几秒钟的片段。

主要特点

  • 多模态扩散架构:通过显式建模运动、音频和辅助条件之间的交互,增强整体面部表情和头部动态。
  • 粗到细的融合策略:逐步整合不同条件,确保有效的特征融合,提高生成视频的多样性和自然度。
  • 实时性与效率:通过优化的推理过程和低延迟运动生成,实现高效的实时视频生成。
  • 适应性强:能够适应不同的身份、情感和音频类型,生成多样化的视频内容。

工作原理

  1. 多模态输入:输入包括一张参考图像(人物肖像)、音频片段以及其他可选的控制信号(如情感标签)。
  2. 特征提取:使用wav2vec编码器提取音频特征,使用视觉情感分类器提取情感特征,并从参考图像中提取身份特征。
  3. 运动生成:通过多模态扩散Transformer(MMDiT)和粗到细的融合策略,将音频特征、情感特征和身份特征与运动特征进行融合,生成运动序列。
  4. 视频合成:将生成的运动序列输入到预训练的面部渲染网络中,合成最终的视频帧。
  5. 实时推理:通过优化的推理过程,将音频特征与视频帧率对齐,并分块处理音频,实现低延迟的实时视频生成。

测试结果

  • 定量评估:在HDTF和CelebV-HQ数据集上,MoDA在多个评估指标上优于现有方法,如FID(Fréchet Inception Distance)和FVD(Fréchet Video Distance)得分最低,表明生成视频的质量和自然度更高。
  • 定性评估:通过视觉比较,MoDA生成的视频在面部表情、头部动作和嘴唇同步方面表现出色,优于其他方法。
  • 实时性:MoDA的实时因子(RTF)小于1,表明其能够实现实时视频生成,适合实时交互场景。
© 版权声明

相关文章

暂无评论

none
暂无评论...