新型框架HumanDreamer-X：用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）

519 0

GigaAI、中国科学院自动化研究所和北京大学的研究人员推出新型框架HumanDreamer-X，用于从单张图像重建逼真的可动画化三维人类虚拟形象（avatar）。该框架通过结合三维重建和视频修复技术，显著提升了从单张图像生成高质量三维虚拟形象的能力。

项目主页：https://humandreamer-x.github.io
GitHub：https://github.com/GigaAI-research/HumanDreamer-X

HumanDreamer-X 的核心目标是解决从单张图像重建三维人类模型的挑战。传统的单图像重建方法在生成多视角图像时容易出现几何不一致的问题，例如模型的肢体可能断裂或模糊。为了解决这些问题，HumanDreamer-X 提出了一种统一的管道，将多视角人类生成和重建结合起来，通过三维高斯绘制（3D Gaussian Splatting）提供初始几何和外观信息，并利用视频修复模型 HumanFixer 进行细节恢复，从而生成高质量的三维虚拟形象。

主要功能

单图像三维虚拟形象重建：从单张图像生成高质量的三维虚拟形象，适用于后续的动画制作。
多视角视频生成：通过修复和增强初始渲染的多视角视频，生成逼真的多视角视频，用于指导三维模型的重建。
视频修复与增强：利用 HumanFixer 模型修复初始渲染的低质量视频，提升细节和视觉质量。
几何一致性增强：通过注意力机制调节策略，增强多视角视频中几何细节和身份一致性，减少模糊和不连续性。

主要特点

统一的重建与生成管道：将三维重建和视频修复结合，避免了传统方法中生成与重建分离导致的几何不一致问题。
高质量三维模型生成：通过 3D 高斯绘制和视频修复的结合，生成具有高几何一致性和视觉保真度的三维模型。
注意力机制调节：提出了一种注意力调节策略，有效解决了多视角视频生成中的不连续性和模糊问题。
广泛的适用性：该方法对不同的三维重建模型具有良好的兼容性，并且在真实世界数据上表现出良好的泛化能力。

工作原理

三维高斯绘制（3D Gaussian Splatting）：利用单张参考图像，通过 3D 高斯绘制生成初始的三维虚拟形象。这种表示方法通过优化一组三维高斯分布来建模场景，能够在渲染时提供基本的几何和外观信息。
多视角视频渲染：从初始的三维虚拟形象渲染出多视角视频，为后续的修复和重建提供几何和外观的先验信息。
视频修复（HumanFixer）：基于预训练的视频扩散模型，利用渲染的多视角视频和参考图像作为条件，生成高质量的多视角视频。该模型通过注意力机制调节策略，增强多视角视频的几何细节和身份一致性。
三维模型重建：利用修复后的多视角视频，进一步优化三维高斯绘制模型，生成高质量的三维虚拟形象。