香港中文大学(深圳)、字节跳动和清华大学的研究人员推出通过法线桥接从图像生成高保真度3D几何模型Hi3DGen,通过法线图作为中间表示,从二维图像生成高保真度的三维几何模型。该框架通过解决现有方法在生成细粒度几何细节时的局限性,提供了一种新的方向。
- 项目主页:https://stable-x.github.io/Hi3DGen
- GitHub:https://github.com/Stable-X/Hi3DGen
- 模型:https://huggingface.co/Stable-X/trellis-normal-v0-1
- Demo:https://huggingface.co/spaces/Stable-X/Hi3DGen
例如,给定一张复杂场景的二维图像,Hi3DGen 能够生成一个与输入图像几何细节高度一致的三维模型。这包括物体的边缘、纹理和表面细节等,这些细节在现有方法中往往难以准确再现。通过法线图作为中间表示,Hi3DGen 能够更有效地从二维图像中提取几何信息,并生成高质量的三维模型。

主要功能
- 高保真度3D几何生成:Hi3DGen 能够从二维图像生成高保真度的三维几何模型,特别在处理复杂几何细节时表现出色。
- 法线桥接:通过法线图作为中间表示,Hi3DGen 有效解决了从二维图像到三维几何的映射问题,提高了生成模型的几何保真度。
- 数据合成:Hi3DGen 提供了一个高质量的合成数据集 DetailVerse,用于支持模型的训练,确保生成的3D模型具有丰富的几何细节。

主要特点
- 法线估计器(NiRNE):通过噪声注入和双流训练,NiRNE 能够从输入图像中生成稳定、锐利的法线图,为后续的3D几何生成提供高质量的中间表示。
- 法线正则化扩散学习(NoRLD):通过在扩散学习中引入法线正则化,NoRLD 提高了3D几何生成的保真度,确保生成的模型与输入图像在几何细节上高度一致。
- 高质量数据集(DetailVerse):Hi3DGen 提供了一个包含70万个高质量合成3D资产的数据集,用于支持模型的训练,确保生成的3D模型具有丰富的几何细节。
工作原理
- 法线估计器(NiRNE):
- 噪声注入:通过在编码器输出的特征中注入噪声,增强模型对高频信息的敏感性,从而提高法线估计的锐利度。
- 双流架构:将输入图像通过两个独立的流进行处理,一个流处理原始图像以捕获低频信息,另一个流处理噪声注入的图像以捕获高频信息。两个流的特征在解码器中合并,生成最终的法线图。
- 领域特定训练:首先使用真实域数据训练模型以捕获低频信息,然后使用合成域数据微调噪声流,以提高高频信息的估计精度。
- 法线正则化扩散学习(NoRLD):
- 扩散学习:使用变分自编码器(VAE)将3D几何编码为紧凑的潜在空间表示,并通过扩散过程学习从潜在空间恢复3D几何。
- 法线正则化:在扩散训练过程中,通过从不同视角渲染法线图并计算与真实法线图的误差,引入法线正则化项,确保生成的3D几何与输入图像在几何细节上高度一致。
- 数据合成(DetailVerse):
- 文本提示生成:从DiffusionDB中收集高质量的文本提示,通过LLaMA模型分类并筛选出适合生成复杂几何结构的文本提示。
- 图像生成:使用Flux.1-Dev生成高质量的图像,并通过OrientAnything模型筛选出具有合适视角的图像。
- 3D合成:使用Trellis生成3D模型,并通过专家评估和自动化评估筛选出高质量的3D模型,形成DetailVerse数据集。

应用场景
- 虚拟现实和增强现实:Hi3DGen 可以生成高保真度的3D模型,用于虚拟现实和增强现实中的场景构建和物体建模。
- 3D打印:Hi3DGen 生成的3D模型可以直接用于3D打印,确保打印出的物体具有丰富的几何细节。
- 游戏开发:Hi3DGen 可以生成高质量的3D角色和场景,用于游戏开发中的资产生成。
- 电影和动画制作:Hi3DGen 可以生成高质量的3D模型,用于电影和动画中的特效制作。
- 工业设计:Hi3DGen 可以生成高保真度的3D模型,用于工业设计中的产品建模和原型制作。
总之,Hi3DGen 通过其创新的法线桥接方法和高质量的数据集,为从二维图像生成高保真度3D几何模型提供了一种有效的解决方案,具有广泛的应用前景。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...