基于图像编辑模型的 FE2E：革新单目密集几何预测

271 0

在单目深度估计、表面法线预测等密集几何预测任务中，如何在有限标注数据下实现高精度的零样本泛化，一直是三维视觉的核心挑战。

近年来，研究者尝试利用文本到图像生成模型（如Stable Diffusion）中的视觉先验来提升性能。然而，这类模型本质上是为“从无到有”的生成任务设计的，而几何预测是一个典型的“图像到图像”映射问题——输入一张图，输出对应的几何场。

北京交通大学、阿里巴巴集团、重庆邮电大学与南洋理工大学的研究团队提出：或许我们一直在用错模型。

项目主页：https://amap-ml.github.io/FE2E
GitHub：https://github.com/AMAP-ML/FE2E

他们推出了 FE2E（From Editor to Estimator），一个开创性地将图像编辑模型（而非生成模型）用于密集几何预测的框架。实验证明，这一选择不仅更符合任务本质，还在零样本深度与法线估计上实现了显著性能跃升。

更令人惊讶的是：其训练数据量仅为当前主流方法的 1/880，却全面超越SOTA。

核心洞察：为什么编辑模型更适合？

研究团队首先进行了一项系统分析，比较了生成模型（如Stable Diffusion）与编辑模型（如Step1X-Edit）在图像到图像任务中的表现差异。

他们发现：

编辑模型具有更强的结构保持能力：其训练目标是“在原始图像基础上进行局部修改”，天然具备对输入图像结构的敏感性；
收敛更稳定：编辑模型通过“精炼”机制逐步优化输出，避免了生成模型中常见的模式崩溃或结构失真；
更适合确定性任务：几何预测不需要创造性，而是要求精确还原真实几何，编辑模型的“保真优先”特性恰好匹配这一需求。

因此，将图像编辑模型作为基础架构，可能是密集预测任务的更优起点。

FE2E 框架设计：三大关键技术

1. 一致速度训练目标：让编辑器适应确定性任务

传统扩散模型使用流匹配（Flow Matching）目标，学习从噪声向目标的演化路径。但在几何预测中，我们需要的是从输入图像到目标几何图的确定性映射。

为此，FE2E 提出 “一致速度”（Consistent Velocity）训练目标：

固定流的起点为输入图像的潜在表示；
要求模型在整个去噪过程中，以恒定速度向目标几何潜在空间推进；
实现“输入引导 + 目标驱动”的稳定收敛。

这一设计使编辑模型摆脱了生成任务的随机性约束，转向确定性回归。

2. 对数量化：解决精度冲突，提升计算效率

几何预测需要高精度输出（如深度值跨越多个数量级），但主流扩散模型使用 BFloat16 格式，存在精度瓶颈。

FE2E 引入 对数量化（Log Quantization）策略：

将深度值转换为对数空间：$ \hat{d} = \log(d + \epsilon) $
在对数空间中进行均匀量化与建模
推理时再指数还原

这一方法有效缓解了远近区域的数值不平衡问题，同时保持低比特计算效率，无需额外开销。

3. 零成本联合估计：单次前向输出深度与法线

大多数方法分别训练深度和法线模型，缺乏跨任务协同。

FE2E 利用 DiT 架构的全局注意力机制，设计了一种无额外成本的联合估计策略：

在潜在空间中，将深度与法线作为两个并行通道；
共享同一个 DiT 主干，在单次前向传播中同时解码两种几何信号；
两种任务的监督信号相互增强，提升整体性能。

✅ 无需多模型、无需多阶段，一次推理完成双任务输出。

工作流程简述

输入编码：通过预训练 VAE 将 RGB 图像编码至潜在空间；
条件注入：将图像潜在表示作为编辑起点；
一致速度建模：DiT 模型预测从起点到几何潜在空间的恒定速度场；
对数量化处理：在对数空间中建模深度分布；
联合解码：同步输出深度图与法线图。

整个流程无需复杂调度或级联结构，端到端可训。

实验结果：小数据，大性能

尽管 FE2E 仅使用 7.1万张图像（0.071M）进行监督训练，远少于 DepthAnything 系列的 62.6M，其在多个零样本基准上仍全面领先。

1. 单目深度估计（Zero-Shot）

数据集	AbsRel ↓	提升幅度
ETH3D	0.182	↓35% vs SOTA
KITTI	0.087	↓10% vs SOTA
NYUv2	0.114	新SOTA

✅ 在远距离场景（如ETH3D）中优势尤为明显，得益于对数量化的数值稳定性。

2. 法线估计（Zero-Shot）

数据集	MeanErr (°) ↓	Results
NYUv2	16.2°	优于现有所有方法
ScanNet	18.7°	显著优于单任务模型

联合训练策略有效提升了法线方向的准确性。

3. 综合性能排名（平均指标排名）

方法	平均排名（越低越好）
FE2E	1.2
DepthAnything-V2	2.5
MiDaS	4.1
DPT	3.8

条形图显示，FE2E 在多个数据集和指标上的综合表现排名第一。

图像模型 # FE2E # 图像编辑

文章版权归作者所有，未经允许请勿转载。

上海AI实验室发布Lumina系列图像生成模型的最新成果—Lumina-Image 2.0

图像模型 # Lumina-Image 2.0

1年前

02890

字节跳动开源UMO：统一多身份优化框架，让AI准确“认出”每个人

图像模型 # UMO # 字节跳动

6个月前

03750

基于文本的编辑框架TurboEdit：能够使用极少的几步就能基于文本指令编辑真实图片

新技术 # TurboEdit # 图像编辑 # 编辑框架

2年前

04760

黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]

图像模型 # FLUX.1 Kontext [dev]# 图像编辑模型 # 黑森林实验室

8个月前

06140

暂无评论

暂无评论...