3D生成框架ComboVerse：从单张图片中生成复杂的三维资产

新技术2年前发布小马良

477 0

来自南洋理工大学、上海人工智能实验室和香港中文大学的研究团队推出3D生成框架ComboVerse，它能够从单张图片中生成复杂的三维资产。

项目主页

首先，从模型和数据两个维度对“多物体差距”进行了深入分析。接着，利用不同物体的重建3D模型，调整它们的大小、旋转角度和位置，以构建与给定图像相匹配的3D场景。为了自动化这一过程，利用预训练的扩散模型中的空间感知分数蒸馏采样（SSDS）技术来指导物体的精准定位。与标准的分数蒸馏采样相比，ComboVerse更加注重物体间的空间对齐，从而实现了更精确的结果。

想象一下，你有一张包含多个物体的图片，比如一只松鼠坐在一个纸盒上，ComboVerse能够根据这张图片生成一个高质量的3D模型，其中松鼠和纸盒都是清晰且位置准确的。

主要功能和特点：

组合生成： ComboVerse能够分别生成图片中的每个物体，然后将它们自动组合成一个整体的3D模型。

空间感知： 该框架使用空间感知的分数蒸馏采样（SSDS）来指导物体的定位，从而实现更准确的空间排列。

高质量渲染： 通过深度分析现有模型在处理多物体时的不足，ComboVerse能够生成具有复杂组合的高质量3D资产。

工作原理：

单物体重建： 首先，ComboVerse对输入图片中的每个物体进行分割和重建，使用图像到3D的模型来创建单个物体的3D模型。

多物体组合： 然后，框架通过优化每个物体的尺寸、旋转角度和位置来自动组合这些生成的3D物体，使其与输入图片和语义空间关系相匹配。这个过程使用预训练的扩散模型作为空间指导，以加快优化过程。

新技术 # 3D # ComboVerse

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

3DTown框架：从单张俯视图像生成逼真且连贯的三维（3D）场景

新技术 # 3DTown # 3D场景

10个月前

01930

基于定制化扩散模型权重的子空间weights2weights（w2w）：能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样新模型来编码多样化的人物实例

基于定制化扩散模型权重的子空间weights2weights（w2w）：能够支持从单一图像中提取视觉身份，编辑模型中编码的身份，以及采样新模型来编码多样化的人物实例

新技术 # w2w # weights2weights # 子空间

2年前

05670

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

新技术 # TCAN # 人像图像动画

2年前

08070

索尼推出音频-视觉生成模型Visual Echoes：根据一张图片生成与之相对应的音频，或者反过来，根据一段音频生成匹配的图片

索尼推出音频-视觉生成模型Visual Echoes：根据一张图片生成与之相对应的音频，或者反过来，根据一段音频生成匹配的图片

新技术 # Visual Echoes # 音频-视觉生成模型

2年前

01,1570

暂无评论

none

暂无评论...