Autodesk推出新型3D生成模型WaLa:基于多种输入条件(如文本描述、图像、点云等)生成参数化的3D CAD模型

Autodesk推出新型3D生成模型“Wavelet Latent Diffusion (WaLa)”,它能够基于多种输入条件(如文本描述、图像、点云等)生成参数化的3D CAD模型。WaLa模型的核心在于其能够将3D形状编码成基于小波的紧凑潜在编码,实现对3D数据的高效压缩和生成。

例如,一个设计师想要根据一张简单的草图或文本描述快速生成一个3D模型。使用WaLa模型,设计师可以输入这样的描述:“一个穿着军装的详细人物半身像,展示他的侧面和服饰。”模型将理解这个描述,并生成一个详细的3D人物模型。同样,如果提供一张低分辨率的体素图或点云数据,WaLa也能够生成高分辨率的3D形状。

主要功能:

  1. 多模态输入:WaLa可以接受文本、单视图/多视图图像、体素、点云、深度图和草图等多种输入形式。
  2. 高效压缩:模型能够将256^3的有符号距离场压缩到123×4的潜在网格中,压缩比达到2,427倍,同时保持细节。
  3. 快速推理:即使模型规模庞大,WaLa也能在2到4秒内生成形状。

主要特点:

  • 亿级参数:WaLa模型包含约十亿个参数,能够生成高质量的3D形状。
  • 状态艺术性能:在多个数据集上展示了生成质量、多样性和计算效率的显著改进。
  • 开源代码和模型:为了促进可重复性和进一步研究,作者开源了代码和据信是迄今为止最大的预训练3D生成模型。

工作原理:

WaLa模型的工作原理包括两个阶段:

  1. 小波VQ-VAE:首先,使用基于卷积的向量量化自编码器(VQ-VAE)将3D形状的波表示压缩到更紧凑的潜在空间,同时保留关键细节。
  2. 潜在扩散模型:在压缩的潜在空间上训练一个大规模的生成模型,该模型可以是无条件的,也可以根据多种条件生成3D形状。

具体应用场景:

  1. 3D建模和设计:设计师和工程师可以使用WaLa从简单的草图或描述中快速生成复杂的3D模型。
  2. 虚拟现实和游戏开发:在虚拟环境和游戏中创建多样化和详细的3D对象。
  3. 建筑和城市规划:根据历史文档或描述重建建筑和城市结构。
  4. 教育和培训:生成教学用的3D模型,帮助学生更好地理解复杂结构和概念。

WaLa模型通过其创新的压缩技术和多模态输入能力,为3D生成领域提供了一个强大而灵活的工具,能够在多种应用场景中实现快速、高质量的3D内容创建。

0

评论0

没有账号?注册  忘记密码?