新型框架Isotropic3D:根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

来自复旦、清华、同济的研究人员推出新型框架Isotropic3D,它能够根据单张参考图片的CLIP嵌入(embedding)生成多视角一致且高质量的3D内容。CLIP嵌入是一种能够捕捉图像语义信息的技术,而Isotropic3D利用这种信息来生成3D模型,这些模型在保持与原图相似的同时,还能展现出对称整洁的内容、规则的几何形状、丰富的颜色纹理以及较小的失真。

你手头有一张精美的二维图片,比如一张动物的照片,你想基于这张照片创建一个3D模型,但不希望模型看起来扭曲或失真。使用Isotropic3D,你只需将这张图片的CLIP嵌入输入到系统中,它就能生成一系列从不同角度观看都保持一致性的3D视图,以及一个3D模型,这个模型不仅外观上与原图相似,而且在形状和纹理上也更加规整和丰富。

主要功能和特点:

  • 高质量3D生成:能够生成具有丰富颜色和清晰纹理的3D模型。
  • 多视角一致性:生成的3D模型从多个视角查看都能保持一致性。
  • 简化输入需求:仅需一张参考图片的CLIP嵌入,无需额外的文本提示或其他输入。
  • 减少失真:生成的3D模型减少了扁平化和失真,更接近真实的三维结构。

工作原理:Isotropic3D的工作流程包括两个主要阶段:

  1. 多视角扩散模型的微调:首先,将一个文本到3D的扩散模型通过替换其文本编码器为图像编码器进行微调,使模型获得图像到图像的能力。然后,引入显式多视角注意力(EMA),结合噪声多视角图像和无噪声参考图像作为明确条件进行进一步微调。
  2. 神经辐射场(NeRF)优化阶段:利用体积渲染技术从随机采样的相机姿态渲染视图,并通过Score Distillation Sampling(SDS)损失优化NeRF,生成高质量的3D内容。

具体应用场景:

  • 动画和游戏开发:为动画电影或视频游戏创建高质量的3D角色和场景。
  • 虚拟现实:在VR环境中提供逼真的3D对象和环境。
  • 3D打印:根据2D图片快速生成3D模型,以便进行3D打印。
  • 在线零售:为电子商务网站提供产品3D视图,帮助消费者从多个角度了解商品。

Isotropic3D是一个强大的工具,它能够从单一的2D图像中提取丰富的3D信息,为各种应用领域提供高质量的3D内容生成服务。

0

评论0

没有账号?注册  忘记密码?