清华团队提出3D场景生成新框架ScenePainter：解决3D生成中的语义漂移难题

3D模型8个月前发布小马良

331 0

从一张街景照片出发，AI能否自动“走”过整条街道，生成沿途连续、风格统一的3D视图？这不仅是虚拟现实、自动驾驶仿真的基础需求，也是生成式AI在空间理解上的重要挑战。

然而，当前主流方法在生成长序列3D视图时，常常出现“语义漂移”——原本的城市街道逐渐变成乡村小路，建筑风格悄然改变，物体布局失去逻辑。这种偏差源于外扩展（outpainting）过程中的累积误差：每一步都依赖局部信息“想象”下一帧，缺乏对整体场景的持续理解。

项目主页：https://xiac20.github.io/ScenePainter
GitHub：https://github.com/xiac20/ScenePainter

为解决这一问题，清华大学研究团队提出 ScenePainter，一个面向语义一致、长期连贯的3D场景生成新框架。它不再“盲目外推”，而是通过构建结构化语义记忆，让AI在生成过程中始终“记得”自己身处何地、风格为何。

清华团队提出3D场景生成新框架ScenePainter：解决3D生成中的语义漂移难题

问题本质：为什么3D视图会“跑偏”？

现有3D场景生成方法多采用“导航与想象”范式：

从单张图像出发；
不断向外扩展视野（outpainting）；
拼接成环绕或前行的3D视图序列。

这一流程看似合理，但存在根本缺陷：

每一步生成仅依赖当前画面，缺乏对场景全局语义的持续建模。

就像一个人边走边画，只记得上一步画了什么，却不记得最初的设定，最终画面必然偏离初衷。这种累积偏差导致生成结果在几十步后出现风格错乱、结构断裂，难以用于需要长期一致性的任务。

核心思路：让AI带上“场景地图”

ScenePainter 的关键创新在于：为生成过程配备一个可更新的语义“导航图”——即 SceneConceptGraph（场景概念图）。

清华团队提出3D场景生成新框架ScenePainter：解决3D生成中的语义漂移难题

它不是简单的标签集合，而是一个多层次、可演化的图结构，用于显式建模场景中的概念及其关系。

SceneConceptGraph 长什么样？

节点：表示不同粒度的语义概念
例如：“城市” → “街道” → “人行道” → “路灯”、“自行车”
边：表示语义或空间关系
例如：“路灯位于人行道边缘”、“自行车靠近路灯”

这个图结构在生成过程中持续存在，并作为语义锚点，指导每一步外绘操作。

工作流程：两阶段协同，保持语义稳定

ScenePainter 采用两阶段动态框架：先建模，再演化。

阶段一：概念关系构建

多级概念提取
从输入图像中识别出物体、材质、风格、布局等多层次语义元素。
图结构构建
将提取的概念组织成 SceneConceptGraph，建立层级与关联。
文本嵌入优化
利用对比学习优化图中概念的文本表示，使其更贴近真实场景语境。
先验注入
将优化后的图转化为文本提示，初始化扩散模型的外绘模块，赋予其“场景记忆”。

✅ 此阶段确保生成起点具备完整的语义上下文。

阶段二：概念关系细化

在视图序列持续生成过程中，ScenePainter 并非一成不变，而是动态调整：

测试时训练（Test-Time Training）
在生成新视图的同时，微调文本嵌入与外绘模型参数，使其适应新出现的内容，防止语义偏离。
图结构动态更新
支持添加、删除或修改图中节点与边。例如：用户要求“加入咖啡店”，系统便在图中新增节点并建立空间关系。
自然语言交互
用户可通过简单指令干预生成过程，如：
- “添加一个书架”
- “不要椅子”
- “切换到雨天模式”

✅ 系统在保持一致性的同时，具备灵活编辑与风格迁移能力。

功能亮点：不止于“不跑偏”

功能	实现方式
语义一致性	通过 SceneConceptGraph 提供全局约束，抑制累积误差
视觉多样性	在语义框架内允许光照、纹理、视角变化，避免重复单调
动态可编辑	图结构支持实时增删改，实现交互式场景构建
长期连贯性	测试时训练机制保障数十步扩展后仍保持风格统一

实验验证：性能全面领先

1. 单图像定制任务（Image Customization）

在 CLIP-I（图像-文本相似度）和 DINO（语义特征对齐）两项指标上，ScenePainter 均优于主流方法：

方法	CLIP-I	DINO
InstantBooth	0.42	0.58
IP-Adapter	0.45	0.61
Custom Diffusion	0.47	0.63
Break-A-Scene	0.46	0.60
ScenePainter	0.53	0.71

✅ 显著提升场景保真度，尤其在复杂城市或室内场景中表现稳健。

2. 3D视图序列生成任务

在用户研究中，参与者被要求评估生成序列的视觉质量、多样性、一致性：

方法	用户偏好占比
WonderJourney	28%
SceneScape	32%
ScenePainter	40%

✅ 用户普遍认为 ScenePainter 生成的序列更自然、连贯，未出现明显“崩坏”或风格跳跃。

3D模型 # 3D生成 # ScenePainter

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

MV-RAG：用检索增强实现更可靠的文本到3D生成

MV-RAG：用检索增强实现更可靠的文本到3D生成

3D模型 # 3D生成 # MV-RAG

7个月前

03030

Hi3DGen：通过法线图作为中间表示，从二维图像生成高保真度的3D几何模型

Hi3DGen：通过法线图作为中间表示，从二维图像生成高保真度的3D几何模型

3D模型 # 3D模型 # Hi3DGen

11个月前

04490

中科大等提出 WinT3R：一种兼顾高精度与实时性的在线 3D 重建新方法

中科大等提出 WinT3R：一种兼顾高精度与实时性的在线 3D 重建新方法

3D模型 # 3D 重建 # WinT3R

6个月前

02110

阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

阶跃星辰推出用于生成高保真度和可控制的纹理化3D资产的开放框架Step1X-3D

3D模型 # 3D资产 # Step1X-3D # 阶跃星辰

10个月前

02090

暂无评论

none

暂无评论...