Matrix-3D:天工AI提出全景式3D世界生成新框架

3D模型4个月前发布 小马良
178 0

从一张照片或一段文字出发,生成一个可以自由探索的3D世界——这是空间智能的核心愿景之一。近年来,基于视频扩散模型的方法在3D内容生成上取得进展,但普遍存在两大瓶颈:

  • 视野受限:生成视角有限,难以实现全向漫游;
  • 几何失真:视觉质量高但结构不一致,影响真实感与可用性。

为突破这些限制,天工AI推出 Matrix-3D ——一个结合全景视频生成全景3D重建的统一框架,支持从单图或文本提示出发,生成广覆盖、可全向探索、几何一致的3D场景

该框架不仅在视觉质量与重建精度上达到新高度,还通过前馈与优化双路径设计,兼顾效率与效果,为虚拟现实、游戏开发、自动驾驶仿真等应用提供实用解决方案。

Matrix-3D:天工AI提出全景式3D世界生成新框架

核心思路:以全景为桥梁,连接2D生成与3D重建

Matrix-3D 的关键创新在于:将全景图像作为中间表示,构建从2D内容到3D世界的连贯路径。

传统方法常直接从单图生成NeRF或3D高斯,受限于视角稀疏与遮挡问题。Matrix-3D 则分两步走:

  1. 先生成高质量全景视频序列,覆盖360°×180°完整视域;
  2. 再将全景视频提升为3D场景,支持任意视角渲染与交互探索。

这一设计确保了生成内容的空间完整性几何一致性

Matrix-3D 三大核心组件

1. 轨迹引导的全景视频生成

给定一张输入图像或文本描述,Matrix-3D 首先生成一段沿指定相机轨迹运动的全景视频。

实现方式如下:

  • 条件建模:以场景网格(mesh)及其掩码作为扩散模型的条件输入;
  • 网格构建:由输入图像估计深度图,生成初始网格,并修复遮挡区域以保持几何合理;
  • 轨迹控制:用户可定义相机路径(如环绕、推进、俯视),模型生成与之对齐的连续全景帧;
  • 高质量生成:基于扩散模型生成高分辨率、低畸变的全景视频,帧间过渡自然。

这一步确保了生成内容在时间和空间上的连贯性。

2. 双路径3D重建:效率与精度兼顾

生成的全景视频随后被转换为可探索的3D场景。Matrix-3D 提供两种独立流水线:

(1)前馈重建:快速部署

  • 使用一个前馈大型重建模型,直接从视频潜在表示和相机姿态预测3D高斯属性(位置、协方差、颜色、不透明度);
  • 基于 Transformer 架构,支持端到端推理;
  • 10秒内完成重建,适合实时或批量生成场景。

(2)优化重建:高保真输出

  • 从全景视频中提取关键帧;
  • 结合相机轨迹,进行3D高斯点云联合优化
  • 迭代调整几何与外观,生成更精细的细节;
  • 适用于对质量要求极高的场景(如影视级渲染)。

两种路径可根据应用场景灵活选择。

Matrix-3D:天工AI提出全景式3D世界生成新框架

3. Matrix-Pano:首个大规模合成全景视频数据集

现有数据集缺乏高质量、带精确相机姿态的全景视频,严重制约模型训练。

为此,团队构建 Matrix-Pano ——一个专为全景3D生成设计的合成数据集,包含:

指标数据
视频序列数116,759
场景类型室内、室外、城市、自然等
标注内容相机轨迹、深度图、语义分割、实例掩码、场景网格

所有数据均通过高保真3D引擎渲染生成,确保几何准确、视角完整、标注可靠。

该数据集为全景视频生成与3D重建的联合训练提供了坚实基础。

训练策略:两阶段监督,促进收敛

为提升前馈重建模型的稳定性,团队采用两阶段训练策略

  1. 第一阶段:使用渲染的全景新视图(novel views)作为监督信号,训练模型学习从潜在空间到3D属性的映射;
  2. 第二阶段:引入几何一致性损失,优化点云分布与表面平滑性。

这一策略显著加快收敛速度,并提升重建质量。

实验表现:全面领先

1. 全景视频生成

在视觉质量与相机控制精度上,Matrix-3D 显著优于现有方法:

指标表现
FID / FVD明显更低,表明视频更真实
旋转误差(Rerr)< 2.1°
平移误差(Terr)< 0.15m

生成视频帧间连贯、无撕裂,且严格遵循用户定义轨迹。

2. 3D世界重建

方法重建质量(PSNR/SSIM)推理速度
优化路径优于 ODGS(现有SOTA)~60秒
前馈路径接近优化方法<10秒

前馈模型在速度上提升6倍以上,同时保持高质量输出。

定性结果也显示,无论是室内房间、城市街道还是自然景观,Matrix-3D 均能生成结构合理、细节丰富的3D场景。

应用前景

Matrix-3D 的能力可广泛应用于多个领域:

  • 虚拟现实与元宇宙:快速构建可漫游的沉浸式环境;
  • 游戏开发:自动生成关卡原型或背景场景;
  • 自动驾驶仿真:基于真实街景生成多样化训练场景;
  • 建筑与设计:将设计图转化为可探索的3D空间;
  • 教育与文旅:复现历史场景或远程导览。

其对轨迹的精确控制能力,也为交互式导航与路径规划提供了支持。

© 版权声明

相关文章

暂无评论

none
暂无评论...