在数字人、虚拟主播、AI 视频创作等领域,仅靠语音生成逼真且动作自然的虚拟形象视频,一直是生成式 AI 的关键挑战之一。
现有音频驱动视频生成方法大多聚焦于面部动画,尤其是唇部同步,而对身体动作、姿态控制和场景适配的支持极为有限。此外,多数模型缺乏精细的文本提示控制能力,难以满足实际应用中对情感、动作和场景的定制化需求。
为突破这些瓶颈,浙江大学与阿里巴巴通义实验室联合推出 OmniAvatar —— 一种创新的音频驱动全身虚拟形象视频生成框架。该模型不仅实现了高精度的唇形同步,还能生成自然流畅的上半身动作,并支持通过文本提示精确控制情感、动作幅度和交互行为。
相关代码与模型已全部开源,标志着音频驱动虚拟人技术迈向更实用、更可控的新阶段。
模型开放:全系列权重已开源
为推动社区发展,研究团队已将所有模型权重公开发布于 Hugging Face,支持快速部署与二次开发。
| 模型名称 | 下载链接 | 说明 |
|---|---|---|
| Wan2.1-T2V-14B | HuggingFace | 14B 参数基础视频生成模型 |
| OmniAvatar-14B | HuggingFace | 基于14B模型的 LoRA 与音频条件权重 |
| Wan2.1-T2V-1.3B | HuggingFace | 轻量级 1.3B 基础模型 |
| OmniAvatar-1.3B | HuggingFace | 轻量版 LoRA 与音频权重 |
| Wav2Vec2 | HuggingFace | 音频编码器,用于特征提取 |
💡 推荐使用 1.3B 版本进行本地测试,14B 版本适合云端部署。
核心能力:输入音频 + 提示 → 生成全身体动画视频
OmniAvatar 的工作流程简洁直观:
- 输入一段语音或音频片段;
- 提供一条文本提示(如“演讲者站在舞台上”“角色正在唱歌并感到兴奋”);
- 模型输出一段虚拟人物视频,其:
- 唇部动作与音频高度同步;
- 身体姿态自然协调;
- 情绪与场景符合提示描述。
✅ 示例:输入一段 TED 演讲音频 + 提示 “speaker on stage with confident gestures”,OmniAvatar 可生成一个自信演讲的虚拟人物,动作自然,口型精准匹配。
主要功能亮点
| 功能 | 说明 |
|---|---|
| 高精度唇部同步 | 在多种数据集上超越现有方法,实现接近真实人物的口型还原 |
| 自然身体动作生成 | 支持头部微动、手势、肩部运动等上半身动态,提升整体表现力 |
| 文本提示控制 | 可通过提示控制情感(高兴、愤怒、惊讶等)、动作幅度、交互对象 |
| 人-物交互支持 | 能生成说话时与物体互动的场景(如手持麦克风、指向白板) |
| 多场景适用 | 覆盖播客、访谈、歌唱、教学、虚拟客服等多种应用场景 |
🔬 技术创新:三大核心技术支撑
1. 像素级多层次音频嵌入策略
传统方法将音频特征作为全局条件注入模型,难以捕捉局部细节。OmniAvatar 创新性地提出像素级多层次嵌入机制:
- 将音频特征从潜在空间的不同层级进行注入;
- 在空间维度上对齐音频与视觉信号;
- 显著提升唇部同步精度,同时使身体动作更具节奏感和语义一致性。
这一设计让模型能更精细地理解“哪段声音对应哪个动作”,从而生成更自然的动画。
2. 基于 LoRA 的高效训练方法
为避免从头训练大模型带来的高昂成本与质量下降风险,OmniAvatar 采用 LoRA(Low-Rank Adaptation)微调策略:
- 在预训练视频扩散模型(如 Wan2.1-T2V)基础上,仅训练低秩矩阵;
- 保留原始模型强大的文本生成能力;
- 高效融入音频条件,实现“文本 + 音频”双驱动。
这使得 OmniAvatar 在不牺牲生成质量的前提下,大幅降低训练资源需求。
3. 长视频生成与时间连贯性保障
针对长视频生成中常见的身份漂移、动作断裂问题,OmniAvatar 引入两项关键技术:
- 参考图像嵌入:通过初始帧或参考图锁定人物身份特征;
- 帧重叠策略:在生成过程中引入相邻帧重叠区域,确保动作平滑过渡。
实验证明,该策略可稳定生成长达数十秒的连贯视频,适用于完整演讲或歌曲表演。
实验验证:全面超越现有方法
OmniAvatar 在多个权威数据集上进行了系统评估,结果表明其在关键指标上均优于当前主流模型:
| 测试项目 | 数据集 | 主要优势 |
|---|---|---|
| 面部动画 | HDTF, AVSpeech-Face | Sync-C / Sync-D(唇同步)提升 15%+,FID、FVD 视频质量更优 |
| 半身动画 | AVSpeech(半身裁剪) | 身体动作自然度与同步性显著领先 |
| 消融实验 | 自建测试集 | 验证了多层次嵌入与 LoRA 策略的有效性,CFG 参数优化进一步提升同步精度 |
尤其在“情感控制”和“动作幅度调节”方面,OmniAvatar 展现出强大的可控性,远超纯音频驱动模型。
应用前景:让虚拟人真正“活”起来
OmniAvatar 的推出,为以下场景提供了全新可能:
- 虚拟播客与访谈:自动生成主持人讲解视频,无需真人出镜;
- AI 教学助手:根据录音生成教师讲解动画,用于在线课程;
- 多语言内容本地化:替换语音后自动同步口型与动作;
- 虚拟偶像与歌唱表演:实现“唱见”级高质量歌声驱动动画;
- 人机交互界面:为智能客服、数字员工赋予更自然的表现力。
更重要的是,它首次实现了音频驱动 + 文本控制 + 全身动作的三位一体生成能力,填补了该领域的技术空白。















