Jasper Research推出一种新型图像到图像转换方法Latent Bridge Matching (LBM) ,这种方法通过在潜在空间中进行“桥匹配”(Bridge Matching)来实现快速的图像到图像转换任务。它能够在单次推理步骤中达到与现有最先进方法相当的性能,并且具有较高的效率和广泛的适用性。
- 项目主页:https://gojasper.github.io/latent-bridge-matching
- GitHub:https://github.com/gojasper/LBM
- Demo:https://huggingface.co/spaces/jasperai/LBM_relighting
例如,在 物体移除 任务中,LBM 可以通过单次推理步骤,从图像中移除指定物体及其阴影,同时保持背景的自然性和一致性。在 图像重光照 任务中,LBM 能够根据给定的背景图像或光照条件,对前景物体进行重新光照,生成逼真的光照效果。

主要功能
- 快速图像到图像翻译:LBM 能够在单次推理步骤中完成图像翻译任务,显著提高了实时应用的可行性。
- 多任务适用性:该方法适用于多种图像翻译任务,包括物体移除、深度和表面法线估计、物体重光照以及阴影生成等。
- 可控性:通过引入条件框架,LBM 可以实现可控的图像重光照和阴影生成,例如根据用户指定的光照条件调整图像的光照效果。

主要特点
- 高效性:LBM 通过在潜在空间中进行桥匹配,避免了传统扩散模型中需要多次迭代生成的缺点,大大提高了生成速度。
- 可扩展性:该方法能够在高分辨率图像上进行训练和推理,适用于大规模数据集和复杂任务。
- 灵活性:LBM 可以通过条件输入(如光照图、背景图像等)实现对生成过程的精细控制,增强了模型的适用性。
工作原理
LBM 的核心思想是通过桥匹配(Bridge Matching)在两个分布之间找到一个传输映射(Transport Map),从而将源图像映射到目标图像。具体步骤如下:
- 潜在空间嵌入:将源图像和目标图像通过预训练的变分自编码器(VAE)嵌入到潜在空间中,得到对应的潜在表示。
- 桥匹配:在潜在空间中构建一个随机插值(Stochastic Interpolant),并利用随机微分方程(SDE)估计从源分布到目标分布的漂移(Drift)。
- 训练和推理:通过训练一个神经网络来预测漂移函数,并在推理时利用该函数生成目标图像的潜在表示,最后通过 VAE 的解码器将其映射回图像空间。
应用场景
- 物体移除:从图像中移除指定物体及其阴影,适用于图像编辑和修复。
- 深度和表面法线估计:从单目图像中估计场景的深度和表面法线,可用于自动驾驶、机器人视觉等领域。
- 图像重光照:根据背景图像或光照条件对前景物体进行重新光照,适用于影视后期制作、虚拟现实等场景。
- 阴影生成:根据光照条件生成物体的阴影,增强图像的真实感和视觉效果。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...