PSHuman：利用多视角扩散模型先验的3D人体建模新框架

323 0

真实感3D人体建模在虚拟现实、增强现实、电影制作、游戏开发和医疗等领域具有广泛的应用。尽管单目全身重建方法取得了显著进展，但它们通常依赖于前视图和/或预测的后视图，这导致了由于问题的病态性质和复杂的自遮挡而难以实现令人满意的表现。

为了克服这些挑战，香港科技大学、东南大学、清华大学和VAST的研究人员提出了PSHuman，这是一种利用多视角扩散模型先验显式重建人体网格的新框架，它用于从单张图片中重建出详细且逼真的3D人物模型。PSHuman利用多视图扩散模型和显式人类雕刻技术，能够在一分钟内完成对穿着服装的人物的详细几何形状和真实3D外观的重建。

项目主页：https://penghtyx.github.io/PSHuman
GitHub：https://github.com/pengHTYX/PSHuman
模型：https://huggingface.co/pengHTYX/PSHuman_Unclip_768_6views
Demo：https://huggingface.co/spaces/fffiloni/PSHuman

例如，你是一名电影制作人，需要快速从一张剧照中创建一个3D角色模型以用于特效制作。使用PSHuman，你只需提供一张演员的照片，该框架就能自动生成一个详细的3D模型，包括面部特征、服装纹理和身体姿态，大大缩短了传统建模所需的时间和成本。

现有方法的局限性

现有的单目全身重建方法主要面临以下两个问题：

几何失真：直接将多视角扩散模型应用于单视角人体图像会导致严重的几何失真，尤其是在生成的面部区域。
自遮挡问题：复杂的人体姿态和衣物遮挡使得从单个视角恢复完整的人体形状变得非常困难。

PSHuman的核心创新

PSHuman通过引入跨尺度扩散模型和SMPL-X参数化模型来解决上述问题，具体包括以下几个关键组件：

1、跨尺度扩散模型：

全局-局部联合建模：PSHuman提出了一种跨尺度扩散模型，该模型能够同时建模全局全身形状和局部面部特征的联合概率分布。这种设计确保了在生成新视角时，不仅能够保持整体几何结构的准确性，还能保留面部细节和身份特征。
防止几何失真：通过跨尺度扩散模型，PSHuman能够在没有任何几何失真的情况下生成细节丰富且身份保持的新视角图像，特别是在面部区域的表现上有了显著提升。

2、基于SMPL-X的条件生成：

身体先验：为了增强不同人体姿势的跨视角身体形状一致性，PSHuman将生成模型的条件设置为参数化模型（如SMPL-X）。SMPL-X提供了一个强大的人体解剖学先验，能够防止生成与人体解剖学不一致的不自然视角。
姿势一致性：通过使用SMPL-X作为条件，PSHuman确保了不同视角下的身体形状在各种姿势下保持一致，从而提高了重建结果的稳定性和可靠性。

3、显式人体雕刻：

多视角法线和颜色图像：PSHuman利用生成的多视角法线和颜色图像，结合SMPL-X初始化的显式人体雕刻技术，高效地恢复了真实感纹理的人体网格。这种方法不仅提高了几何细节的保真度，还确保了纹理的真实感和一致性。

主要功能：

单视图人体重建：从单张RGB图像中重建全身体3D模型。
详细几何形状恢复：重建包括面部细节和服装纹理在内的精细几何形状。
真实3D外观生成：生成逼真的3D人物外观，包括颜色和纹理。
多视图生成：生成多个视角下的人体图像，用于后续的3D重建。

主要特点：

跨尺度扩散模型：通过身体-面部跨尺度扩散模型，提高3D人物面部细节的重建质量。
SMPL-X条件多视图扩散：使用SMPL-X模型作为先验，增强多视图生成的鲁棒性。
显式人类雕刻模块：利用多视图正常和颜色图像，快速恢复真实的纹理化3D人物网格。
高效快速：整个重建过程仅需大约一分钟。

工作原理：

PSHuman的工作流程包括两个主要阶段：

多视图扩散模型：使用预训练的文本到图像扩散模型（如Stable Diffusion），生成多视角下的人物颜色和法线图。该模型通过条件输入（如SMPL-X渲染图）来引导生成过程，确保生成的视图符合人体解剖学。
显式人类雕刻模块：利用生成的多视图图像，通过SMPL-X初始化的3D网格进行雕刻，恢复人物的几何形状和外观。这一阶段包括SMPL-X初始化、可微分重网格化和外观融合。