Autodesk推出新型3D生成模型“Wavelet Latent Diffusion (WaLa)”,它能够基于多种输入条件(如文本描述、图像、点云等)生成参数化的3D CAD模型。WaLa模型的核心在于其能够将3D形状编码成基于小波的紧凑潜在编码,实现对3D数据的高效压缩和生成。
- 项目主页:https://autodeskailab.github.io/WaLaProject
- GitHub:https://github.com/AutodeskAILab/WaLa
- 模型:https://huggingface.co/ADSKAILab
例如,一个设计师想要根据一张简单的草图或文本描述快速生成一个3D模型。使用WaLa模型,设计师可以输入这样的描述:“一个穿着军装的详细人物半身像,展示他的侧面和服饰。”模型将理解这个描述,并生成一个详细的3D人物模型。同样,如果提供一张低分辨率的体素图或点云数据,WaLa也能够生成高分辨率的3D形状。
主要功能:
- 多模态输入:WaLa可以接受文本、单视图/多视图图像、体素、点云、深度图和草图等多种输入形式。
- 高效压缩:模型能够将256^3的有符号距离场压缩到123×4的潜在网格中,压缩比达到2,427倍,同时保持细节。
- 快速推理:即使模型规模庞大,WaLa也能在2到4秒内生成形状。
主要特点:
- 亿级参数:WaLa模型包含约十亿个参数,能够生成高质量的3D形状。
- 状态艺术性能:在多个数据集上展示了生成质量、多样性和计算效率的显著改进。
- 开源代码和模型:为了促进可重复性和进一步研究,作者开源了代码和据信是迄今为止最大的预训练3D生成模型。
工作原理:
WaLa模型的工作原理包括两个阶段:
- 小波VQ-VAE:首先,使用基于卷积的向量量化自编码器(VQ-VAE)将3D形状的波表示压缩到更紧凑的潜在空间,同时保留关键细节。
- 潜在扩散模型:在压缩的潜在空间上训练一个大规模的生成模型,该模型可以是无条件的,也可以根据多种条件生成3D形状。
具体应用场景:
- 3D建模和设计:设计师和工程师可以使用WaLa从简单的草图或描述中快速生成复杂的3D模型。
- 虚拟现实和游戏开发:在虚拟环境和游戏中创建多样化和详细的3D对象。
- 建筑和城市规划:根据历史文档或描述重建建筑和城市结构。
- 教育和培训:生成教学用的3D模型,帮助学生更好地理解复杂结构和概念。
WaLa模型通过其创新的压缩技术和多模态输入能力,为3D生成领域提供了一个强大而灵活的工具,能够在多种应用场景中实现快速、高质量的3D内容创建。
评论0