苹果近期提出 SHARPA(Single-image High-Accuracy Real-time Parallax),一种从单张 RGB 图像生成高保真、可交互 3D 场景的新方法。该技术通过神经网络单次前向推理,在不到 1 秒内构建出场景的 3D 高斯表示,并支持超过 100 FPS 的实时渲染,适用于 AR/VR、3D 照片浏览等交互场景。

核心能力
| 特性 | 说明 |
|---|---|
| 单图输入 | 仅需一张普通照片,无需多视角、深度图或额外传感器数据 |
| 3D 高斯表示 | 输出为可微分、可渲染的 3D 高斯点云,包含位置、尺度、旋转、颜色、透明度等属性 |
| 绝对尺度 | 场景具有真实物理尺度,可与 AR/VR 设备的相机轨迹精确对齐 |
| 实时渲染 | 支持 >100 FPS 的高质量视图合成,延迟远低于人眼感知阈值 |
| 零样本泛化 | 在未见过的真实场景(如个人照片)上表现稳健 |
性能优势
在多个标准数据集(Middlebury、ScanNet++、Tanks and Temples)上,SHARPA 显著优于现有方法:
- 图像保真度:
- LPIPS 感知损失降低 25–34%
- DISTS 相似度提升 21–43%
- 速度:
- 合成时间 <1 秒(标准 GPU)
- 比基于扩散模型的方法快 2–3 个数量级
- 质量 vs 效率平衡:在保持高保真的同时,首次实现端到端秒级 3D 重建 + 实时渲染。
技术原理
SHARPA 采用两阶段流程,结合预训练深度估计与高斯优化:
- 深度估计与调整
- 使用预训练模型(如 Depth Pro)提取初始深度;
- 引入深度调整模块,通过学习尺度图解决单目深度歧义问题。
- 3D 高斯初始化与细化
- 基于调整后的深度与 RGB 图像,初始化高斯点云;
- 通过高斯解码器联合优化所有属性(位置、颜色、透明度等)。
- 可微分渲染与训练
- 使用 3D 高斯光栅化器渲染新视角;
- 采用两阶段训练:先在合成数据上预训练,再在真实图像上自监督微调。
整个流程无需多视角监督,仅依赖单张图像的光度一致性进行优化。
应用场景
- AR/VR 体验
将手机拍摄的照片实时转为 3D 场景,用户可在头显中“走入”照片,自然转动头部查看不同角度。 - 3D 照片浏览
在社交平台或相册中实现“动态照片”效果,点击即可从新视角探索场景。 - 影视与游戏预演
快速将参考图转为可交互 3D 布景,供导演或设计师实时调整镜头与光照。 - 空间计算基础组件
作为 Apple Vision Pro 等设备中“记忆式场景重建”的潜在技术路径。
与现有方法的差异
| 方法 | 输入 | 速度 | 渲染质量 | 是否支持绝对尺度 | 实时交互 |
|---|---|---|---|---|---|
| NeRF / Instant-NGP | 多视角 | 分钟级 | 高 | 否(相对尺度) | 否 |
| 扩散 3D(如 Gen3C) | 单图 | 数分钟 | 中高 | 否 | 否 |
| 3D Gaussian Splatting | 多视角 | 秒级 | 极高 | 是 | 是 |
| SHARPA(本文) | 单图 | <1 秒 | 极高 | 是 | 是 |
SHARPA 是目前唯一同时满足单图输入、绝对尺度、高保真、实时渲染的技术方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















