在单目深度估计、表面法线预测等密集几何预测任务中,如何在有限标注数据下实现高精度的零样本泛化,一直是三维视觉的核心挑战。
近年来,研究者尝试利用文本到图像生成模型(如Stable Diffusion)中的视觉先验来提升性能。然而,这类模型本质上是为“从无到有”的生成任务设计的,而几何预测是一个典型的“图像到图像”映射问题——输入一张图,输出对应的几何场。

北京交通大学、阿里巴巴集团、重庆邮电大学与南洋理工大学的研究团队提出:或许我们一直在用错模型。
他们推出了 FE2E(From Editor to Estimator),一个开创性地将图像编辑模型(而非生成模型)用于密集几何预测的框架。实验证明,这一选择不仅更符合任务本质,还在零样本深度与法线估计上实现了显著性能跃升。
更令人惊讶的是:其训练数据量仅为当前主流方法的 1/880,却全面超越SOTA。
核心洞察:为什么编辑模型更适合?
研究团队首先进行了一项系统分析,比较了生成模型(如Stable Diffusion)与编辑模型(如Step1X-Edit)在图像到图像任务中的表现差异。
他们发现:
- 编辑模型具有更强的结构保持能力:其训练目标是“在原始图像基础上进行局部修改”,天然具备对输入图像结构的敏感性;
- 收敛更稳定:编辑模型通过“精炼”机制逐步优化输出,避免了生成模型中常见的模式崩溃或结构失真;
- 更适合确定性任务:几何预测不需要创造性,而是要求精确还原真实几何,编辑模型的“保真优先”特性恰好匹配这一需求。
因此,将图像编辑模型作为基础架构,可能是密集预测任务的更优起点。
FE2E 框架设计:三大关键技术
1. 一致速度训练目标:让编辑器适应确定性任务
传统扩散模型使用流匹配(Flow Matching)目标,学习从噪声向目标的演化路径。但在几何预测中,我们需要的是从输入图像到目标几何图的确定性映射。
为此,FE2E 提出 “一致速度”(Consistent Velocity)训练目标:
- 固定流的起点为输入图像的潜在表示;
- 要求模型在整个去噪过程中,以恒定速度向目标几何潜在空间推进;
- 实现“输入引导 + 目标驱动”的稳定收敛。
这一设计使编辑模型摆脱了生成任务的随机性约束,转向确定性回归。
2. 对数量化:解决精度冲突,提升计算效率
几何预测需要高精度输出(如深度值跨越多个数量级),但主流扩散模型使用 BFloat16 格式,存在精度瓶颈。
FE2E 引入 对数量化(Log Quantization)策略:
- 将深度值转换为对数空间:$ \hat{d} = \log(d + \epsilon) $
- 在对数空间中进行均匀量化与建模
- 推理时再指数还原
这一方法有效缓解了远近区域的数值不平衡问题,同时保持低比特计算效率,无需额外开销。
3. 零成本联合估计:单次前向输出深度与法线
大多数方法分别训练深度和法线模型,缺乏跨任务协同。
FE2E 利用 DiT 架构的全局注意力机制,设计了一种无额外成本的联合估计策略:
- 在潜在空间中,将深度与法线作为两个并行通道;
- 共享同一个 DiT 主干,在单次前向传播中同时解码两种几何信号;
- 两种任务的监督信号相互增强,提升整体性能。
✅ 无需多模型、无需多阶段,一次推理完成双任务输出。

工作流程简述
- 输入编码:通过预训练 VAE 将 RGB 图像编码至潜在空间;
- 条件注入:将图像潜在表示作为编辑起点;
- 一致速度建模:DiT 模型预测从起点到几何潜在空间的恒定速度场;
- 对数量化处理:在对数空间中建模深度分布;
- 联合解码:同步输出深度图与法线图。
整个流程无需复杂调度或级联结构,端到端可训。
实验结果:小数据,大性能
尽管 FE2E 仅使用 7.1万张图像(0.071M)进行监督训练,远少于 DepthAnything 系列的 62.6M,其在多个零样本基准上仍全面领先。
1. 单目深度估计(Zero-Shot)
| 数据集 | AbsRel ↓ | 提升幅度 |
|---|---|---|
| ETH3D | 0.182 | ↓35% vs SOTA |
| KITTI | 0.087 | ↓10% vs SOTA |
| NYUv2 | 0.114 | 新SOTA |
✅ 在远距离场景(如ETH3D)中优势尤为明显,得益于对数量化的数值稳定性。
2. 法线估计(Zero-Shot)
| 数据集 | MeanErr (°) ↓ | Results |
|---|---|---|
| NYUv2 | 16.2° | 优于现有所有方法 |
| ScanNet | 18.7° | 显著优于单任务模型 |
联合训练策略有效提升了法线方向的准确性。
3. 综合性能排名(平均指标排名)
| 方法 | 平均排名(越低越好) |
|---|---|
| FE2E | 1.2 |
| DepthAnything-V2 | 2.5 |
| MiDaS | 4.1 |
| DPT | 3.8 |
条形图显示,FE2E 在多个数据集和指标上的综合表现排名第一。














