阿里巴巴的研究人员推出一种名为 TaoAvatar 的技术,用于创建逼真的、全身的、会说话的虚拟形象(avatar),并能够在增强现实(AR)设备上实时运行。TaoAvatar 基于 3D 高斯点绘制(3D Gaussian Splatting, 3DGS)技术,通过结合个性化的人体参数化模板和高效的神经网络,实现了高质量的渲染效果和实时性能。
- 项目主页:https://pixelai-team.github.io/TaoAvatar
- 数据:https://huggingface.co/datasets/PixelAI-Team/TalkBody4D
TaoAvatar 的核心目标是为 AR 应用(如电子商务直播、全息通信等)提供高质量、实时的全身虚拟形象。传统方法在处理全身动作和面部表情时存在细节不足、无法实时运行等问题。TaoAvatar 通过创新的教师-学生框架,将复杂的非刚性变形建模任务分解为高效的轻量级网络,同时保持了高质量的渲染效果。

例如,你正在参加一个虚拟会议,你希望自己的虚拟形象能够实时反映你的面部表情、手势和身体动作。TaoAvatar 可以通过多视角视频输入,创建一个与你动作同步的全身虚拟形象,并且能够在 AR 设备上实时渲染,让你的虚拟形象看起来栩栩如生。
主要功能
- 高质量渲染:TaoAvatar 能够生成逼真的全身虚拟形象,包括面部表情、手势和身体动作。
- 实时性能:该技术能够在各种移动和 AR 设备上实时运行,例如 Apple Vision Pro,支持 90 FPS 的高分辨率立体渲染。
- 轻量级架构:通过教师-学生框架,TaoAvatar 将复杂的非刚性变形建模任务分解为轻量级的 MLP 网络,确保高效的运行性能。
- 多信号驱动:虚拟形象可以通过面部表情参数、手势和身体姿势等多种信号进行驱动,实现自然的动画效果。
主要特点
- 教师-学生框架:通过预训练的教师网络捕捉高频率的外观细节,并将这些细节“烘焙”到轻量级的学生网络中,确保高质量和高性能的平衡。
- 混合人体参数化模板:结合了 SMPLX 参数化模型和 3D 高斯点绘制技术,创建了一个能够模拟松散衣物和头发的个性化模板。
- 非刚性变形补偿:引入了两个轻量级的可学习混合形状(blend shapes),用于补偿高斯点的非刚性变形,进一步提升渲染质量。
- 多视角数据集:为了评估性能,作者创建了一个名为 TalkBody4D 的多视角数据集,专注于日常生活中常见的全身说话场景。
工作原理
- 模板创建:首先,从多视角视频中重建一个个性化的、穿着衣物的人体参数化模板(SMPLX++),并将其与 3D 高斯点绑定作为纹理。
- 教师网络预训练:使用 StyleUnet 基础的教师网络,通过正交投影学习高斯点在不同姿态下的动态非刚性变形。
- 非刚性变形烘焙:将教师网络学习到的非刚性变形通过知识蒸馏技术“烘焙”到轻量级的 MLP 学生网络中,同时引入混合形状来补偿细节。
- 实时渲染:在推理阶段,学生网络能够高效地渲染出高质量的全身虚拟形象,支持实时交互。

应用场景
- 电子商务直播:商家可以使用 TaoAvatar 创建虚拟主播,实时展示商品并进行互动。
- 全息通信:在远程会议或社交应用中,用户可以通过 TaoAvatar 以虚拟形象参与,实现更加自然的交流。
- 虚拟娱乐:在游戏或虚拟现实应用中,TaoAvatar 可以为玩家提供个性化的虚拟角色,增强沉浸感。
- 教育与培训:创建虚拟教师或培训师,通过 AR 设备进行教学或培训,提供更加生动的学习体验。
总结
TaoAvatar 提供了一种高效、高质量的全身虚拟形象解决方案,特别适合在移动和 AR 设备上实时运行。通过创新的教师-学生框架和混合人体参数化模板,TaoAvatar 在保持渲染质量的同时,显著提升了运行效率,为虚拟形象在 AR 应用中的广泛使用奠定了基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...