新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

新技术1年前发布小马良

416 0

来自复旦、清华、同济的研究人员推出新型框架Isotropic3D，它能够根据单张参考图片的CLIP嵌入（embedding）生成多视角一致且高质量的3D内容。CLIP嵌入是一种能够捕捉图像语义信息的技术，而Isotropic3D利用这种信息来生成3D模型，这些模型在保持与原图相似的同时，还能展现出对称整洁的内容、规则的几何形状、丰富的颜色纹理以及较小的失真。

项目主页

模型地址

你手头有一张精美的二维图片，比如一张动物的照片，你想基于这张照片创建一个3D模型，但不希望模型看起来扭曲或失真。使用Isotropic3D，你只需将这张图片的CLIP嵌入输入到系统中，它就能生成一系列从不同角度观看都保持一致性的3D视图，以及一个3D模型，这个模型不仅外观上与原图相似，而且在形状和纹理上也更加规整和丰富。

新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

主要功能和特点：

高质量3D生成：能够生成具有丰富颜色和清晰纹理的3D模型。

多视角一致性：生成的3D模型从多个视角查看都能保持一致性。

简化输入需求：仅需一张参考图片的CLIP嵌入，无需额外的文本提示或其他输入。

减少失真：生成的3D模型减少了扁平化和失真，更接近真实的三维结构。

新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

工作原理：Isotropic3D的工作流程包括两个主要阶段：

多视角扩散模型的微调：首先，将一个文本到3D的扩散模型通过替换其文本编码器为图像编码器进行微调，使模型获得图像到图像的能力。然后，引入显式多视角注意力（EMA），结合噪声多视角图像和无噪声参考图像作为明确条件进行进一步微调。

神经辐射场（NeRF）优化阶段：利用体积渲染技术从随机采样的相机姿态渲染视图，并通过Score Distillation Sampling（SDS）损失优化NeRF，生成高质量的3D内容。

新型框架Isotropic3D：根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

具体应用场景：

动画和游戏开发：为动画电影或视频游戏创建高质量的3D角色和场景。

虚拟现实：在VR环境中提供逼真的3D对象和环境。

3D打印：根据2D图片快速生成3D模型，以便进行3D打印。

在线零售：为电子商务网站提供产品3D视图，帮助消费者从多个角度了解商品。

Isotropic3D是一个强大的工具，它能够从单一的2D图像中提取丰富的3D信息，为各种应用领域提供高质量的3D内容生成服务。

新技术 # 3D模型 # Isotropic3D

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Follow-Your系列新框架Follow-Your-Emoji：基于扩散模型的肖像动画框架，生成富有表现力的表情动画

Follow-Your系列新框架Follow-Your-Emoji：基于扩散模型的肖像动画框架，生成富有表现力的表情动画

新技术 # Follow-Your-Emoji # 肖像动画框架

9个月前

05550

新型文本到音频生成模型Tango 2：提高音频生成的质量和与文本的匹配度

新型文本到音频生成模型Tango 2：提高音频生成的质量和与文本的匹配度

新技术 # Tango 2 # 文本到音频生成模型

12个月前

04640

视频流翻译方法Live2Diff：专为直播视频转换设计的时间单向注意力视频扩散模型

视频流翻译方法Live2Diff：专为直播视频转换设计的时间单向注意力视频扩散模型

新技术 # Live2Diff # 直播

9个月前

04820

基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

新技术 # LVCD # 视频上色

7个月前

03130

暂无评论

none

暂无评论...