从一张街景照片出发,AI能否自动“走”过整条街道,生成沿途连续、风格统一的3D视图?这不仅是虚拟现实、自动驾驶仿真的基础需求,也是生成式AI在空间理解上的重要挑战。
然而,当前主流方法在生成长序列3D视图时,常常出现“语义漂移”——原本的城市街道逐渐变成乡村小路,建筑风格悄然改变,物体布局失去逻辑。这种偏差源于外扩展(outpainting)过程中的累积误差:每一步都依赖局部信息“想象”下一帧,缺乏对整体场景的持续理解。
为解决这一问题,清华大学研究团队提出 ScenePainter,一个面向语义一致、长期连贯的3D场景生成新框架。它不再“盲目外推”,而是通过构建结构化语义记忆,让AI在生成过程中始终“记得”自己身处何地、风格为何。

问题本质:为什么3D视图会“跑偏”?
现有3D场景生成方法多采用“导航与想象”范式:
- 从单张图像出发;
- 不断向外扩展视野(outpainting);
- 拼接成环绕或前行的3D视图序列。
这一流程看似合理,但存在根本缺陷:
每一步生成仅依赖当前画面,缺乏对场景全局语义的持续建模。
就像一个人边走边画,只记得上一步画了什么,却不记得最初的设定,最终画面必然偏离初衷。这种累积偏差导致生成结果在几十步后出现风格错乱、结构断裂,难以用于需要长期一致性的任务。
核心思路:让AI带上“场景地图”
ScenePainter 的关键创新在于:为生成过程配备一个可更新的语义“导航图”——即 SceneConceptGraph(场景概念图)。

它不是简单的标签集合,而是一个多层次、可演化的图结构,用于显式建模场景中的概念及其关系。
SceneConceptGraph 长什么样?
- 节点:表示不同粒度的语义概念
例如:“城市” → “街道” → “人行道” → “路灯”、“自行车” - 边:表示语义或空间关系
例如:“路灯 位于 人行道边缘”、“自行车 靠近 路灯”
这个图结构在生成过程中持续存在,并作为语义锚点,指导每一步外绘操作。
工作流程:两阶段协同,保持语义稳定
ScenePainter 采用两阶段动态框架:先建模,再演化。
阶段一:概念关系构建
- 多级概念提取
从输入图像中识别出物体、材质、风格、布局等多层次语义元素。 - 图结构构建
将提取的概念组织成 SceneConceptGraph,建立层级与关联。 - 文本嵌入优化
利用对比学习优化图中概念的文本表示,使其更贴近真实场景语境。 - 先验注入
将优化后的图转化为文本提示,初始化扩散模型的外绘模块,赋予其“场景记忆”。
✅ 此阶段确保生成起点具备完整的语义上下文。
阶段二:概念关系细化
在视图序列持续生成过程中,ScenePainter 并非一成不变,而是动态调整:
- 测试时训练(Test-Time Training)
在生成新视图的同时,微调文本嵌入与外绘模型参数,使其适应新出现的内容,防止语义偏离。 - 图结构动态更新
支持添加、删除或修改图中节点与边。例如:用户要求“加入咖啡店”,系统便在图中新增节点并建立空间关系。 - 自然语言交互
用户可通过简单指令干预生成过程,如:- “添加一个书架”
- “不要椅子”
- “切换到雨天模式”
✅ 系统在保持一致性的同时,具备灵活编辑与风格迁移能力。
功能亮点:不止于“不跑偏”
| 功能 | 实现方式 |
|---|---|
| 语义一致性 | 通过 SceneConceptGraph 提供全局约束,抑制累积误差 |
| 视觉多样性 | 在语义框架内允许光照、纹理、视角变化,避免重复单调 |
| 动态可编辑 | 图结构支持实时增删改,实现交互式场景构建 |
| 长期连贯性 | 测试时训练机制保障数十步扩展后仍保持风格统一 |
实验验证:性能全面领先
1. 单图像定制任务(Image Customization)
在 CLIP-I(图像-文本相似度)和 DINO(语义特征对齐)两项指标上,ScenePainter 均优于主流方法:
| 方法 | CLIP-I | DINO |
|---|---|---|
| InstantBooth | 0.42 | 0.58 |
| IP-Adapter | 0.45 | 0.61 |
| Custom Diffusion | 0.47 | 0.63 |
| Break-A-Scene | 0.46 | 0.60 |
| ScenePainter | 0.53 | 0.71 |
✅ 显著提升场景保真度,尤其在复杂城市或室内场景中表现稳健。
2. 3D视图序列生成任务
在用户研究中,参与者被要求评估生成序列的视觉质量、多样性、一致性:
| 方法 | 用户偏好占比 |
|---|---|
| WonderJourney | 28% |
| SceneScape | 32% |
| ScenePainter | 40% |
✅ 用户普遍认为 ScenePainter 生成的序列更自然、连贯,未出现明显“崩坏”或风格跳跃。















