苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

3D模型3周前更新 小马良
34 0

苹果近期提出 SHARPA(Single-image High-Accuracy Real-time Parallax),一种从单张 RGB 图像生成高保真、可交互 3D 场景的新方法。该技术通过神经网络单次前向推理,在不到 1 秒内构建出场景的 3D 高斯表示,并支持超过 100 FPS 的实时渲染,适用于 AR/VR、3D 照片浏览等交互场景。

苹果提出 SHARPA:单图生成 3D 高斯模型,实现秒级实时视图合成

核心能力

特性说明
单图输入仅需一张普通照片,无需多视角、深度图或额外传感器数据
3D 高斯表示输出为可微分、可渲染的 3D 高斯点云,包含位置、尺度、旋转、颜色、透明度等属性
绝对尺度场景具有真实物理尺度,可与 AR/VR 设备的相机轨迹精确对齐
实时渲染支持 >100 FPS 的高质量视图合成,延迟远低于人眼感知阈值
零样本泛化在未见过的真实场景(如个人照片)上表现稳健

性能优势

在多个标准数据集(Middlebury、ScanNet++、Tanks and Temples)上,SHARPA 显著优于现有方法:

  • 图像保真度
    • LPIPS 感知损失降低 25–34%
    • DISTS 相似度提升 21–43%
  • 速度
    • 合成时间 <1 秒(标准 GPU)
    • 比基于扩散模型的方法快 2–3 个数量级
  • 质量 vs 效率平衡:在保持高保真的同时,首次实现端到端秒级 3D 重建 + 实时渲染

技术原理

SHARPA 采用两阶段流程,结合预训练深度估计与高斯优化:

  1. 深度估计与调整
    • 使用预训练模型(如 Depth Pro)提取初始深度;
    • 引入深度调整模块,通过学习尺度图解决单目深度歧义问题。
  2. 3D 高斯初始化与细化
    • 基于调整后的深度与 RGB 图像,初始化高斯点云;
    • 通过高斯解码器联合优化所有属性(位置、颜色、透明度等)。
  3. 可微分渲染与训练
    • 使用 3D 高斯光栅化器渲染新视角;
    • 采用两阶段训练:先在合成数据上预训练,再在真实图像上自监督微调

整个流程无需多视角监督,仅依赖单张图像的光度一致性进行优化。

应用场景

  • AR/VR 体验
    将手机拍摄的照片实时转为 3D 场景,用户可在头显中“走入”照片,自然转动头部查看不同角度。
  • 3D 照片浏览
    在社交平台或相册中实现“动态照片”效果,点击即可从新视角探索场景。
  • 影视与游戏预演
    快速将参考图转为可交互 3D 布景,供导演或设计师实时调整镜头与光照。
  • 空间计算基础组件
    作为 Apple Vision Pro 等设备中“记忆式场景重建”的潜在技术路径。

与现有方法的差异

方法输入速度渲染质量是否支持绝对尺度实时交互
NeRF / Instant-NGP多视角分钟级否(相对尺度)
扩散 3D(如 Gen3C)单图数分钟中高
3D Gaussian Splatting多视角秒级极高
SHARPA(本文)单图<1 秒极高

SHARPA 是目前唯一同时满足单图输入、绝对尺度、高保真、实时渲染的技术方案。

© 版权声明

相关文章

暂无评论

none
暂无评论...