影眸科技推出新型大型3D生成模型CLAY:帮助人们将脑海中的创意轻松转化为精细的三维数字结构

上海科技大学、影眸科技和华中科技大学的研究人员推出新型大型3D生成模型CLAY,它的主要任务是帮助人们将脑海中的创意轻松转化为精细的三维数字结构。就像孩子们用黏土塑造出各种形状的物体一样,CLAY能够通过文本或图像输入,生成具有复杂细节的3D模型。

  • 项目主页:https://sites.google.com/view/clay-3dlm
  • GitHub:https://github.com/CLAY-3D/OpenCLAY
  • 官网:https://hyperhuman.deemos.com/rodin
  • DEMO:https://huggingface.co/spaces/DEEMOSTECH/Rodin

例如,你想要创造一个未来派的城市景观,你可以用CLAY输入描述性文本,比如“一个充满摩天大楼和飞行汽车的未来城市”,CLAY会根据这个描述生成一个详细的3D场景,包括高耸的建筑、繁忙的街道和先进的交通工具。这不仅节省了手工建模的时间,还能提供无限的创意空间。

主要功能:

  • 3D几何和材质生成:CLAY能够根据用户的指令生成3D形状和表面材质。
  • 多模态控制:支持文本、图像以及3D相关的多种控制方式,如多视角图像、体素、边界框、点云等。

主要特点:

  • 大规模生成模型:CLAY拥有15亿参数,是一个庞大的模型,能够处理和生成高分辨率的3D数据。
  • 高质量输出:能够生成具有物理基础渲染(PBR)纹理的高分辨率材质,使3D模型看起来更加真实。
  • 易用性:即使是初学者也能轻松使用CLAY将他们的3D创意变为现实。

工作原理:

CLAY的核心是一个多分辨率变分自编码器(VAE)和一个最小化的潜在扩散变换器(DiT),它们共同工作来提取3D几何的形状和材质特征。模型通过以下步骤来生成3D资产:

  1. 输入处理:接受文本、图像或3D相关的控制输入。
  2. 特征提取:通过VAE将输入转换为潜在空间的特征表示。
  3. 细节生成:DiT在潜在空间中逐步去除噪声,生成清晰的3D结构。
  4. 材质渲染:利用多视角材质扩散模型生成具有漫反射、粗糙度和金属感的PBR纹理。

具体应用场景:

  • 娱乐产业:在电影、游戏和动画制作中,CLAY可以快速生成复杂的3D场景和角色模型。
  • 设计和建筑:帮助设计师和建筑师将他们的设计概念转化为详细的3D模型,用于进一步的分析和展示。
  • 教育和研究:作为教学工具,帮助学生理解3D建模原理,并激发他们的创造力。
0

评论0

没有账号?注册  忘记密码?