浙大 × 阿里巴巴推出 OmniAvatar:首个支持音频驱动全身动画的可控虚拟人视频生成模型

视频模型5个月前发布 小马良
202 0

在数字人、虚拟主播、AI 视频创作等领域,仅靠语音生成逼真且动作自然的虚拟形象视频,一直是生成式 AI 的关键挑战之一。

现有音频驱动视频生成方法大多聚焦于面部动画,尤其是唇部同步,而对身体动作、姿态控制和场景适配的支持极为有限。此外,多数模型缺乏精细的文本提示控制能力,难以满足实际应用中对情感、动作和场景的定制化需求。

为突破这些瓶颈,浙江大学与阿里巴巴通义实验室联合推出 OmniAvatar —— 一种创新的音频驱动全身虚拟形象视频生成框架。该模型不仅实现了高精度的唇形同步,还能生成自然流畅的上半身动作,并支持通过文本提示精确控制情感、动作幅度和交互行为。

相关代码与模型已全部开源,标志着音频驱动虚拟人技术迈向更实用、更可控的新阶段。

模型开放:全系列权重已开源

为推动社区发展,研究团队已将所有模型权重公开发布于 Hugging Face,支持快速部署与二次开发。

模型名称下载链接说明
Wan2.1-T2V-14BHuggingFace14B 参数基础视频生成模型
OmniAvatar-14BHuggingFace基于14B模型的 LoRA 与音频条件权重
Wan2.1-T2V-1.3BHuggingFace轻量级 1.3B 基础模型
OmniAvatar-1.3BHuggingFace轻量版 LoRA 与音频权重
Wav2Vec2HuggingFace音频编码器,用于特征提取

💡 推荐使用 1.3B 版本进行本地测试,14B 版本适合云端部署。

核心能力:输入音频 + 提示 → 生成全身体动画视频

OmniAvatar 的工作流程简洁直观:

  1. 输入一段语音或音频片段
  2. 提供一条文本提示(如“演讲者站在舞台上”“角色正在唱歌并感到兴奋”);
  3. 模型输出一段虚拟人物视频,其:
    • 唇部动作与音频高度同步;
    • 身体姿态自然协调;
    • 情绪与场景符合提示描述。

✅ 示例:输入一段 TED 演讲音频 + 提示 “speaker on stage with confident gestures”,OmniAvatar 可生成一个自信演讲的虚拟人物,动作自然,口型精准匹配。

主要功能亮点

功能说明
高精度唇部同步在多种数据集上超越现有方法,实现接近真实人物的口型还原
自然身体动作生成支持头部微动、手势、肩部运动等上半身动态,提升整体表现力
文本提示控制可通过提示控制情感(高兴、愤怒、惊讶等)、动作幅度、交互对象
人-物交互支持能生成说话时与物体互动的场景(如手持麦克风、指向白板)
多场景适用覆盖播客、访谈、歌唱、教学、虚拟客服等多种应用场景

🔬 技术创新:三大核心技术支撑

1. 像素级多层次音频嵌入策略

传统方法将音频特征作为全局条件注入模型,难以捕捉局部细节。OmniAvatar 创新性地提出像素级多层次嵌入机制

  • 将音频特征从潜在空间的不同层级进行注入;
  • 在空间维度上对齐音频与视觉信号;
  • 显著提升唇部同步精度,同时使身体动作更具节奏感和语义一致性。

这一设计让模型能更精细地理解“哪段声音对应哪个动作”,从而生成更自然的动画。

2. 基于 LoRA 的高效训练方法

为避免从头训练大模型带来的高昂成本与质量下降风险,OmniAvatar 采用 LoRA(Low-Rank Adaptation)微调策略

  • 在预训练视频扩散模型(如 Wan2.1-T2V)基础上,仅训练低秩矩阵;
  • 保留原始模型强大的文本生成能力;
  • 高效融入音频条件,实现“文本 + 音频”双驱动。

这使得 OmniAvatar 在不牺牲生成质量的前提下,大幅降低训练资源需求。

3. 长视频生成与时间连贯性保障

针对长视频生成中常见的身份漂移、动作断裂问题,OmniAvatar 引入两项关键技术:

  • 参考图像嵌入:通过初始帧或参考图锁定人物身份特征;
  • 帧重叠策略:在生成过程中引入相邻帧重叠区域,确保动作平滑过渡。

实验证明,该策略可稳定生成长达数十秒的连贯视频,适用于完整演讲或歌曲表演。

实验验证:全面超越现有方法

OmniAvatar 在多个权威数据集上进行了系统评估,结果表明其在关键指标上均优于当前主流模型:

测试项目数据集主要优势
面部动画HDTF, AVSpeech-FaceSync-C / Sync-D(唇同步)提升 15%+,FID、FVD 视频质量更优
半身动画AVSpeech(半身裁剪)身体动作自然度与同步性显著领先
消融实验自建测试集验证了多层次嵌入与 LoRA 策略的有效性,CFG 参数优化进一步提升同步精度

尤其在“情感控制”和“动作幅度调节”方面,OmniAvatar 展现出强大的可控性,远超纯音频驱动模型。

应用前景:让虚拟人真正“活”起来

OmniAvatar 的推出,为以下场景提供了全新可能:

  • 虚拟播客与访谈:自动生成主持人讲解视频,无需真人出镜;
  • AI 教学助手:根据录音生成教师讲解动画,用于在线课程;
  • 多语言内容本地化:替换语音后自动同步口型与动作;
  • 虚拟偶像与歌唱表演:实现“唱见”级高质量歌声驱动动画;
  • 人机交互界面:为智能客服、数字员工赋予更自然的表现力。

更重要的是,它首次实现了音频驱动 + 文本控制 + 全身动作的三位一体生成能力,填补了该领域的技术空白。

© 版权声明

相关文章

暂无评论

none
暂无评论...