腾讯开源高效3D生成模型 Hunyuan3D-1.0:首个同时支持文生和图生的 3D 开源大模型

尽管3D生成模型极大地改善了艺术家的工作流程,但现有的3D扩散模型在生成速度和泛化能力方面仍存在不足。为了解决这些问题,腾讯开发了一个名为 Hunyuan3D-1.0 的统一框架,它用于文本到3D(Text-to-3D)和图像到3D(Image-to-3D)的生成。这个框架通过两个阶段的方法,有效地解决了3D生成领域中的速度慢和泛化能力差的问题,同时保持了生成资产的质量和多样性。

例如,你是一名游戏设计师,需要快速将一个概念图或描述转化为3D模型,Hunyuan3D-1.0 可以接收文本提示或单张图片作为输入,快速生成高质量的3D资产。这大大缩短了从概念到模型的转换时间,提高了工作效率。

主要功能

  • 多视图扩散模型:在第一阶段,该模型能够高效地生成多视图RGB图像,捕捉3D资产从不同视点的丰富细节。
  • 前馈重建模型:在第二阶段,该模型能够快速且准确地从生成的多视图图像中重建3D资产。
  • 文本到图像模型集成:框架集成了 Hunyuan-DiT,支持文本和图像条件的3D生成。

主要特点

  • 速度与质量的平衡:Hunyuan3D-1.0 在显著减少生成时间的同时,保持了生成资产的质量和多样性。
  • 双阶段方法:包括一个轻量版和一个标准版,支持文本和图像条件生成。
  • 0-海拔姿态分布:在多视图生成中设计,最大化生成视图之间的可见区域。
  • 混合输入:结合校准和未校准的图像作为输入,提高3D重建的准确性。
  • 超分辨率模块:提高细节表示能力,增强3D形状的几何信息。

方法概述

Hunyuan3D-1.0 是一个两阶段的3D生成框架,旨在提高生成速度和泛化能力。以下是两个阶段的详细说明:

1、 第一阶段:多视图扩散模型

大规模2D扩散模型生成多视图图像,增强模型对3D信息的理解,并设置0-海拔相机轨道以最大化生成视图之间的可见区域。利用

  • 目标:高效生成多视图RGB图像。
  • 方法:采用多视图扩散模型,从不同视角捕捉3D资产的丰富细节,将任务从单视图重建放松到多视图重建。
  • 效率:在约4秒内生成多视图RGB图像。

2、 第二阶段:稀疏视图重建模型

使用生成的多视图图像快速重建3D资产,学习处理多视图扩散引入的噪声和不一致性,并利用条件图像中的信息有效恢复3D结构。

  • 目标:根据生成的多视图图像快速且忠实地重建3D资产。
  • 方法:引入前馈重建模型,处理多视图扩散引入的噪声和不一致性,利用条件图像中的可用信息高效恢复3D结构。
  • 效率:在约7秒内完成3D资产的重建。

统一框架

Hunyuan3D-1.0 涉及一个文本到图像模型,即 Hunyuan-DiT,使其成为一个统一的框架,支持文本和图像条件的3D生成。标准版比精简版和其他现有模型多3倍的参数,从而在生成速度和质量之间实现了令人印象深刻的平衡。

性能评估

通过与其他开源3D生成方法进行评估,Hunyuan3D-1.0 在5个指标上获得了最高的用户偏好。具体表现如下:

  • 精简模型:在NVIDIA A100 GPU上从单张图像生成3D网格大约需要10秒。
  • 标准模型:在NVIDIA A100 GPU上从单张图像生成3D网格大约需要25秒。
0

评论0

没有账号?注册  忘记密码?