SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

3D模型2个月前发布 小马良
94 0

在室内设计、VR/AR开发、机器人训练等领域,“高保真3D室内场景模型”是核心基础——设计师需要用它预览方案效果,VR设备需要靠它构建沉浸式环境,机器人则依赖它模拟真实导航场景。但长期以来,3D室内场景生成面临两大难题:手动建模效率极低(一个复杂房间建模需数天),而现有AI生成方法难以平衡多维度需求(要么视觉逼真度不足,要么语义混乱,或无法满足用户对布局的控制需求)。

核心瓶颈在于“数据短缺”——缺乏大规模、高质量的标注数据集支撑模型学习“布局-外观-语义-几何”的关联规律。为此,香港科技大学与群核科技的研究团队先构建了一套包含12,328个结构化标注场景、57,440个房间、470万张逼真2D渲染图的数据集,再基于此提出SpatialGen模型——通过“多视图多模态扩散”技术,让模型能根据3D布局和参考信息(图像或文本),生成“视觉逼真、语义一致、几何准确”的3D室内场景,彻底打通从“布局构想”到“实景级3D模型”的高效路径。

SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

SpatialGen的核心价值:解决3D室内生成的“四难平衡”

传统AI生成3D室内场景时,往往陷入“顾此失彼”的困境:追求视觉逼真就会丢失语义一致性(如把沙发生成在窗户位置),保证布局控制就会限制场景多样性。SpatialGen通过“数据+模型”双创新,同时满足四大核心需求:

需求维度传统方法的局限SpatialGen的解决方案
视觉保真度生成图像细节模糊,材质纹理不真实基于470万张高逼真渲染图训练,生成图像接近照片级质感
语义一致性家具、家电位置混乱(如床靠在门口),不符合生活逻辑多模态联合生成,语义分割图与RGB图同步优化,确保物体位置合理
多视图一致性不同视角下物体形态矛盾(如正面看是圆桌,侧面看是方桌)多视图扩散机制约束,任意视角生成结果保持几何逻辑统一
用户可控性难以根据用户指定的布局生成,灵活性差以3D布局为核心引导,用户可通过调整布局直接控制场景结构

例如设计师想生成“现代简约客厅”:只需给出“客厅布局图”(标注沙发、茶几、电视墙的位置)和文本提示“浅灰色布艺沙发+原木茶几”,SpatialGen就能生成从正面、侧面、俯视等多个视角的客厅图像,且所有视角中沙发、茶几的位置、形态完全一致,语义标签清晰可辨。

SpatialGen的技术拆解:从“数据支撑”到“模型架构”

SpatialGen的能力源于“大规模高质量数据集”与“多视图多模态扩散模型”的深度结合,两大核心模块共同保障生成效果。

1. 先建“数据地基”:470万张渲染图,让模型学懂“室内规律”

要让模型理解“什么样的室内场景合理”,首先需要足够多的“正确样本”。研究团队构建的数据集有三大特点,为模型训练提供关键支撑:

  • 结构化标注完整:每个房间不仅有渲染图,还标注了“语义分割信息”(区分沙发、桌子、墙壁等物体)、“场景坐标信息”(记录每个像素在3D空间中的位置),让模型能同时学习“外观-语义-几何”的关联;
  • 场景多样性充足:覆盖现代、北欧、中式等10余种风格,包含客厅、卧室、书房等7类常见房间,家具组合、户型结构均多样化,避免模型生成“千篇一律”的场景;
  • 渲染质量高:所有2D图像均采用专业渲染引擎生成,材质纹理(如木质的木纹、布艺的褶皱)、光影效果(如阳光透过窗户的投影)均接近真实室内环境,确保模型学到“逼真的视觉特征”。

2. 再搭“模型架构”:多模态联合生成,确保多维度一致

SpatialGen的核心是“布局引导的多视图多模态扩散模型”,通过三大关键设计实现高效生成:

(1)布局引导的注意力机制:让布局成为“场景骨架”

模型首先将用户输入的3D布局(如CAD格式的房间布局图)转换为“视图特定表示”——包括“粗语义图”(标注各区域对应物体类型)和“场景坐标图”(标注各位置的3D空间坐标)。
在扩散过程中,模型会通过“布局引导注意力”,让RGB图像、语义分割图、场景坐标图的生成都以布局为核心:比如布局中标注“沙发区”的位置,注意力机制会强制让该区域生成与沙发相关的像素、语义标签和空间坐标,确保场景结构完全遵循用户指定的布局。

(2)多模态联合生成:一次生成“三类关键信息”

传统模型通常先生成RGB图像,再单独预测语义和几何信息,容易导致“多模态脱节”(如RGB图是沙发,语义标签却标为椅子)。
SpatialGen采用“多模态联合扩散”:在同一扩散过程中,同步生成RGB图像(视觉外观)、语义分割图(物体类别标注)、场景坐标图(3D空间位置)三类信息。通过跨模态损失函数约束,让三类信息相互校准——比如语义分割图中标注“茶几”的区域,RGB图中必须呈现茶几的视觉特征,场景坐标图中必须符合茶几的3D尺寸,从根本上避免多模态矛盾。

(3)迭代密集视图生成:逐步完善场景细节

为确保“任意视角都一致”,SpatialGen采用“迭代生成策略”:

  1. 先生成少量关键视角(如正面、侧面)的多模态信息,构建场景的“核心框架”;
  2. 基于核心框架,逐步生成更多中间视角(如45°角、俯视)的信息,填补视角空白;
  3. 每新增一个视角,都会与已生成的视角进行一致性校验,调整细节(如修正物体边缘的轻微错位),最终实现“全视角覆盖+无矛盾细节”。

(4)3D重建收尾:从“2D图像”到“可交互3D模型”

生成多视角2D信息后,SpatialGen通过“3D高斯点云渲染技术”,将这些2D信息重建为“显式辐射场”——这是一种可直接用于VR/AR的3D表示形式,支持:

  • 自由视角渲染:用户可任意拖动视角观察场景,画面实时渲染且无卡顿;
  • 物理属性关联:可给场景中的物体添加物理属性(如沙发的柔软度、桌子的硬度),支持机器人交互模拟。

实测性能:多任务碾压传统方法,指标全面领先

研究团队在“文本到3D场景生成”“图像到3D场景生成”两大核心任务中,将SpatialGen与Set-the-Scene、SceneCraft等主流方法对比,结果显示其在关键指标上全面领先。

1. 文本到3D场景生成:更贴合文本描述,视觉质量更高

在Hypersim数据集(常用3D室内评估数据集)上,以“文本提示+3D布局”为输入,评估生成结果与文本的匹配度和视觉质量:

  • CLIP相似度(衡量生成结果与文本描述的匹配度):SpatialGen比Set-the-Scene高12.3%,比SceneCraft高8.7%,能更精准理解“浅灰色沙发”“原木茶几”等细节描述;
  • 图像奖励指标(衡量视觉逼真度):SpatialGen得分比基线方法高15.6%,生成的材质纹理、光影效果更接近真实场景。

在SpatialGen自建数据集上,其优势更明显——所有评估指标(CLIP相似度、FID、PSNR)均排名第一,且与第二名差距超过10%。

2. 图像到3D场景生成:多视角一致性更强,无失真伪影

以“参考图像+3D布局”为输入,测试不同相机轨迹下的生成效果(如直线轨迹、随机行走轨迹):

  • 在PSNR(峰值信噪比,衡量图像清晰度)、SSIM(结构相似性,衡量几何一致性)、LPIPS(感知相似度,衡量视觉一致性)等指标上,SpatialGen比“无布局引导的扩散模型”高8%-15%;
  • 关键突破:在随机行走轨迹(视角变化更复杂)下,传统方法会出现“物体变形”“场景断裂”等伪影,而SpatialGen生成的所有视角图像均保持几何一致,无明显失真。

应用场景与未来方向:从“设计工具”到“产业赋能”

1. 四大核心应用场景

SpatialGen的落地价值已覆盖多个领域,能直接解决行业痛点:

  • 室内设计行业:设计师只需绘制简单布局图,就能快速生成多视角实景级效果图,原本需要3天的建模工作,现在1小时内即可完成,大幅缩短设计迭代周期;
  • VR/AR内容开发:为VR看房、AR家居预览等应用提供海量3D场景,用户可在生成的场景中自由漫游,体验“提前住进新家”的效果;
  • 机器人训练:生成多样化的室内场景(如不同户型的客厅、杂乱的卧室),用于训练机器人的导航、物体抓取能力,避免机器人因“场景单一”导致的泛化性差问题;
  • 视频内容创作:从现有室内视频中提取3D布局,再基于此生成全新视角的视频片段(如从“客厅正面”生成“客厅俯视”镜头),为影视、短视频创作提供灵活的镜头切换方案。

2. 现有局限与未来优化

尽管SpatialGen已表现出色,但仍有可提升的空间:

  • 计算成本较高:多模态联合生成需要处理大量数据,单次生成多视角场景的耗时较长,未来可通过“模型轻量化”“分布式计算”优化,降低实时生成的门槛;
  • 相机采样策略待完善:当前模型对“极端视角”(如紧贴地面的仰视视角)的生成效果稍弱,未来可设计“自适应相机采样”策略,让模型重点优化易出问题的视角;
  • 场景复杂度可扩展:目前主要支持家庭室内场景,未来可扩展到办公、商场、酒店等更复杂的公共空间场景,进一步拓宽应用范围。
© 版权声明

相关文章

暂无评论

none
暂无评论...