基于图像编辑模型的 FE2E:革新单目密集几何预测

图像模型3个月前发布 小马良
200 0

在单目深度估计、表面法线预测等密集几何预测任务中,如何在有限标注数据下实现高精度的零样本泛化,一直是三维视觉的核心挑战。

近年来,研究者尝试利用文本到图像生成模型(如Stable Diffusion)中的视觉先验来提升性能。然而,这类模型本质上是为“从无到有”的生成任务设计的,而几何预测是一个典型的“图像到图像”映射问题——输入一张图,输出对应的几何场。

基于图像编辑模型的 FE2E:革新单目密集几何预测

北京交通大学、阿里巴巴集团、重庆邮电大学与南洋理工大学的研究团队提出:或许我们一直在用错模型

他们推出了 FE2E(From Editor to Estimator),一个开创性地将图像编辑模型(而非生成模型)用于密集几何预测的框架。实验证明,这一选择不仅更符合任务本质,还在零样本深度与法线估计上实现了显著性能跃升。

更令人惊讶的是:其训练数据量仅为当前主流方法的 1/880,却全面超越SOTA。

核心洞察:为什么编辑模型更适合?

研究团队首先进行了一项系统分析,比较了生成模型(如Stable Diffusion)与编辑模型(如Step1X-Edit)在图像到图像任务中的表现差异。

他们发现:

  • 编辑模型具有更强的结构保持能力:其训练目标是“在原始图像基础上进行局部修改”,天然具备对输入图像结构的敏感性;
  • 收敛更稳定:编辑模型通过“精炼”机制逐步优化输出,避免了生成模型中常见的模式崩溃或结构失真;
  • 更适合确定性任务:几何预测不需要创造性,而是要求精确还原真实几何,编辑模型的“保真优先”特性恰好匹配这一需求。

因此,将图像编辑模型作为基础架构,可能是密集预测任务的更优起点

FE2E 框架设计:三大关键技术

1. 一致速度训练目标:让编辑器适应确定性任务

传统扩散模型使用流匹配(Flow Matching)目标,学习从噪声向目标的演化路径。但在几何预测中,我们需要的是从输入图像到目标几何图的确定性映射

为此,FE2E 提出 “一致速度”(Consistent Velocity)训练目标:

  • 固定流的起点为输入图像的潜在表示;
  • 要求模型在整个去噪过程中,以恒定速度向目标几何潜在空间推进;
  • 实现“输入引导 + 目标驱动”的稳定收敛。

这一设计使编辑模型摆脱了生成任务的随机性约束,转向确定性回归。

2. 对数量化:解决精度冲突,提升计算效率

几何预测需要高精度输出(如深度值跨越多个数量级),但主流扩散模型使用 BFloat16 格式,存在精度瓶颈。

FE2E 引入 对数量化(Log Quantization)策略:

  • 将深度值转换为对数空间:$ \hat{d} = \log(d + \epsilon) $
  • 在对数空间中进行均匀量化与建模
  • 推理时再指数还原

这一方法有效缓解了远近区域的数值不平衡问题,同时保持低比特计算效率,无需额外开销。

3. 零成本联合估计:单次前向输出深度与法线

大多数方法分别训练深度和法线模型,缺乏跨任务协同。

FE2E 利用 DiT 架构的全局注意力机制,设计了一种无额外成本的联合估计策略

  • 在潜在空间中,将深度与法线作为两个并行通道;
  • 共享同一个 DiT 主干,在单次前向传播中同时解码两种几何信号;
  • 两种任务的监督信号相互增强,提升整体性能。

✅ 无需多模型、无需多阶段,一次推理完成双任务输出。

基于图像编辑模型的 FE2E:革新单目密集几何预测

工作流程简述

  1. 输入编码:通过预训练 VAE 将 RGB 图像编码至潜在空间;
  2. 条件注入:将图像潜在表示作为编辑起点;
  3. 一致速度建模:DiT 模型预测从起点到几何潜在空间的恒定速度场;
  4. 对数量化处理:在对数空间中建模深度分布;
  5. 联合解码:同步输出深度图与法线图。

整个流程无需复杂调度或级联结构,端到端可训。

实验结果:小数据,大性能

尽管 FE2E 仅使用 7.1万张图像(0.071M)进行监督训练,远少于 DepthAnything 系列的 62.6M,其在多个零样本基准上仍全面领先。

1. 单目深度估计(Zero-Shot)

数据集AbsRel ↓提升幅度
ETH3D0.182↓35% vs SOTA
KITTI0.087↓10% vs SOTA
NYUv20.114新SOTA

✅ 在远距离场景(如ETH3D)中优势尤为明显,得益于对数量化的数值稳定性。

2. 法线估计(Zero-Shot)

数据集MeanErr (°) ↓Results
NYUv216.2°优于现有所有方法
ScanNet18.7°显著优于单任务模型

联合训练策略有效提升了法线方向的准确性。

3. 综合性能排名(平均指标排名)

方法平均排名(越低越好)
FE2E1.2
DepthAnything-V22.5
MiDaS4.1
DPT3.8

条形图显示,FE2E 在多个数据集和指标上的综合表现排名第一。

© 版权声明

相关文章

暂无评论

none
暂无评论...