前馈单图像人体重建框架IDOL：能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

新技术3个月前发布小马良

155 0

南京大学、中国科学院深圳先进技术研究院、清华大学、腾讯和深圳理工大学的研究人员共同推出了IDOL（Image-based Detailed and Optimized Avatar），这是一个具有快速、高保真和通用化特点的前馈单图像人体重建框架，它能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象。IDOL利用一个包含100,000个多视角主体的大规模数据集，展示了其在处理多样人体形态、跨域数据、严重视角变化和遮挡方面的卓越性能。通过统一的结构化表示，IDOL生成的虚拟形象不仅可以直接进行动画处理，还能轻松编辑，为图形学、视觉等领域提供了显著的进步。

项目主页：https://yiyuzhuang.github.io/IDOL
GitHub：https://github.com/yiyuzhuang/IDOL

例如，你是一名游戏设计师，需要根据玩家上传的个人照片，快速在游戏中生成一个3D角色模型。使用IDOL技术，只需上传玩家的照片，系统就能在不到一秒的时间内创建出一个3D人物模型，这个模型不仅外观逼真，还能根据游戏中的动作捕捉技术进行动态的动画制作。

前馈单图像人体重建框架IDOL：能够从单张图片中快速创建出高保真度、可动画化的3D全身人物形象

主要功能：

快速重建：从单张图片中迅速生成3D人物模型。
高保真度：生成的3D模型具有逼真的纹理和准确的几何形状。
可动画化：生成的3D人物模型可以直接用于动画制作，无需后处理。

主要特点：

高效率：模型能在不到一秒的时间内完成重建，适合实时应用。
通用性：能够处理多样化的人形姿态和外观，包括跨领域数据、严重视角和遮挡情况。
统一结构表示：使用3D高斯表示和SMPL-X模型，便于动画制作和编辑。
大规模数据集：利用了超过100K个多样化、高保真度的人物图像数据集HuGe100K，提高了模型的泛化能力。

框架概述

IDOL的架构是一个完全可微分的基于变压器的框架，专门设计用于从单张图像中重建出可以动画化的3D人体模型。该模型的关键组成部分包括：

高分辨率编码器：用于捕捉输入图像中的细节。
UV-Alignment Transformer：将图像令牌与可学习的UV令牌融合，确保图像特征准确映射到3D人体模型上。
UV解码器：预测高斯属性图作为中间表示，这些图在由SMPL-X模型定义的2D UV空间中捕捉人体的几何和外观。
线性混合蒙皮（LBS）：结合高斯属性图与SMPL-X模型，表示规范空间中的3D人体虚拟形象，并允许对其进行动画处理。

通过使用多视角图像对模型进行优化，IDOL能够学习解耦姿势、外观和形状，从而实现更加逼真和灵活的人体重建。

数据集：HuGe100K

为了支持这一强大的框架，研究人员还引入了名为HuGe100K的数据集，它包含了超过100,000个照片级真实感的多视角主体，旨在促进非商业研究目的的稳健3D重建任务。这个数据集对于提升人体建模研究的质量和深度起到了关键作用。

新技术 # IDOL

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

不可混合扩散Immiscible Diffusion：加速扩散模型的训练过程

不可混合扩散Immiscible Diffusion：加速扩散模型的训练过程

新技术 # Immiscible Diffusion # 扩散模型

10个月前

05840

新型图像超分辨率技术S3Diff：让模糊的低分辨率图片变清晰

新型图像超分辨率技术S3Diff：让模糊的低分辨率图片变清晰

新技术 # S3Diff # 图像超分辨率

6个月前

03840

强调了结构化注释的使用！用于训练复杂图像-文本模型的大规模数据集LAION-SG

强调了结构化注释的使用！用于训练复杂图像-文本模型的大规模数据集LAION-SG

新技术 # LAION-SG # 数据集

4个月前

01590

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

DeepPerception：通过结合知识和推理能力，提升多模态大语言模型在细粒度视觉识别任务中的表现

新技术 # DeepPerception # 多模态大语言模型

2周前

0260

暂无评论

none

暂无评论...