基于扩散模型的创新框架3DHM：根据单张图片和目标3D动作序列来生成人物动画

256 0

加州大学伯克利分校的研究人员提出了一种创新的框架——3DHM（3D Human Motion），该框架利用扩散模型从单张图像中根据给定的目标3D运动序列生成高质量的人物动画。这一方法的核心在于解耦人体和服装不可见部分的学习与新姿态的渲染，从而实现了在3D姿态上忠实于目标运动、在视觉相似性上忠实于输入图像的效果。这个系统的核心在于模仿一个人物（称为“演员”）的动作，并将这些动作转移到另一个新人物（称为“模仿者”）身上。例如，给定一个芭蕾舞者的视频，系统可以将舞者的动作转移到任何单张图片中的新人物上，从而合成新的渲染图像，使新人物模仿原始舞者的动作。

项目主页：https://boyiliee.github.io/3DHM.github.io
GitHub：https://github.com/Boyiliee/3DHM

特点：

3D控制：使用3D人体姿态数据来控制动作转移，提高了动作的准确性和流畅性。
两阶段方法：第一阶段是纹理图补全，第二阶段是人物渲染，这种分离的方法使得系统能够有效地生成忠实于目标动作的图像序列。
自监督学习：不需要额外的标注数据，使用先进的3D人体姿态估计模型来生成训练数据。
泛化能力：尽管使用有限的数据进行训练，但系统能够很好地泛化到未见过的真人图像上

核心组成部分

学习关于人体和服装不可见部分的先验知识

填充扩散模型：研究人员开发了一个专门用于生成人物不可见部分的扩散模型。该模型在纹理图空间上进行训练，这种表示方式对姿态和视角具有不变性，因此能够更高效地学习样本。
幻觉不可见部分：通过这个模型，系统可以根据单张图像中的可见部分，合理推测并生成不可见的身体部位，如背部、侧面等。这使得即使是从背面视图也能生成完整的动画。

渲染具有正确服装和纹理的新身体姿态

基于扩散的渲染管道：研究人员设计了一个由3D人体姿态控制的渲染管道，该管道能够生成新姿态下的真实渲染结果。这个管道不仅考虑了人体的姿态变化，还能够处理复杂的服装、头发等细节，并对不可见区域进行合理的填充。
3D控制：由于渲染过程是由3D姿态驱动的，因此可以轻松地通过不同的合成相机轨迹来渲染人物，生成多视角的动画效果。

工作原理

3DHM的工作原理可以分为以下几个步骤：

3D人体姿态估计：使用4DHumans模型从视频中提取“演员”的动作信号，并在时间上进行追踪。
纹理图补全（Stage-1）：从单视图图像中提取部分纹理图，并使用扩散模型来预测未见区域的纹理，生成完整的纹理图。
人物渲染（Stage-2）：将完整的纹理图应用到3D人体姿态序列上，生成中间渲染图像，然后通过另一个扩散模型将这些图像转换成更逼真的图像。
外观一致性增强：使用可训练的Stable Diffusion模型分支（ReferenceNet）来增强输入图像的外观一致性。
时间一致性：使用时间扩散模型来学习动作序列中的时间相关性，以生成平滑且一致的视频。

3DHM 训练特点

自监督训练：3DHM 的训练管道分为两个阶段，且整个过程是自监督的。这意味着它不需要额外的人工标注数据，而是通过伪真实值进行训练。研究人员使用了最先进的3D人体检测和跟踪软件（H4D），该软件可以从视频中自动检测、分割、跟踪并将人体3D化，从而生成用于训练的伪真实值。
可扩展性：3DHM 的训练方法具有高度的可扩展性。随着更多人类运动视频数据的加入以及计算资源的增加，模型的表现可以进一步提升。
无额外标注：3DHM 不依赖任何额外的标注数据，仅通过视频中的3D人体信息进行训练，降低了数据收集和预处理的成本。

3DHM 关键特性

多种相机视角：3DHM 可以生成从不同视角观察的人物动画，包括正面、侧面、背面等多种方位角。
从文本生成运动：用户可以通过输入文本描述来生成相应的人物运动序列，适用于更多的应用场景。
从随机视频生成运动：3DHM 能够从随机的视频片段中提取3D姿态信息，生成多样化的人物动画。
长距离运动：该方法在生成长时间运动序列时表现出色，能够保持动作的连贯性和自然性。
具有挑战性的运动：3DHM 能够处理复杂的、具有挑战性的运动，如跳跃、旋转等，生成高质量的动画。
仅从背面视图生成动画：即使输入图像中只有人物的背面，3DHM 也能够生成完整的动画，展示了其强大的泛化能力。

3DHM 结果

实验结果表明，3DHM 在生成多样化、复杂姿态和长时间运动方面表现出了显著的优势。相比于现有的方法，3DHM 能够生成更加自然、流畅的人物动画，同时保持与输入图像的高度视觉一致性。此外，3DHM 的3D控制能力使得它可以轻松地通过不同的相机轨迹渲染人物，生成多视角的动画效果，极大地扩展了其应用范围。