FreSca:用于增强扩散模型在图像编辑和图像理解任务中的性能

新技术3个月前发布 小马良
118 0

罗切斯特大学、Netflix Eyeline Studios和德克萨斯大学达拉斯分校的研究人员推出 FreSca,用于增强扩散模型(Diffusion Models)在图像编辑图像理解任务中的性能。FreSca 通过在傅里叶域(Fourier Domain)中对噪声预测的高频和低频分量进行独立缩放,实现了更精细的语义操作和编辑控制。该方法无需重新训练模型,即可直接应用于现有的扩散模型,显著提升了图像编辑的质量和深度估计的准确性。

FreSca:用于增强扩散模型在图像编辑和图像理解任务中的性能

主要功能

  1. 图像编辑增强:FreSca 能够提升基于扩散模型的图像编辑方法的效果,例如更精确地根据文本提示进行图像修改(如改变物体颜色、形状等),同时保持图像的语义一致性。
  2. 深度估计改进:FreSca 可以应用于基于扩散模型的单目深度估计和视频深度估计任务,提升深度图的细节和准确性,减少模糊和结构缺失问题。

主要特点

  • 无需重新训练:FreSca 是一种即插即用(Plug-and-Play)的方法,可以直接集成到现有的扩散模型中,无需额外的训练过程。
  • 频率感知缩放:通过在傅里叶域中对高频和低频分量分别进行缩放,FreSca 提供了更精细的控制能力,能够独立调节图像的结构和细节。
  • 广泛的适用性:FreSca 不仅适用于图像编辑,还可以扩展到其他基于扩散模型的任务,如深度估计,展示了其广泛的适用性。

工作原理

  1. 扩散模型基础:扩散模型通过逐步向数据添加噪声,然后学习逆转这一过程来生成新内容。在图像编辑中,通过引入目标文本提示,模型可以对噪声预测进行条件化,从而实现对图像的编辑。
  2. 噪声预测的频率分析:FreSca 对噪声预测的差异(∆ϵ)进行傅里叶变换,将其分解为低频和高频分量。低频分量主要影响图像的结构和布局,而高频分量则影响细节和纹理。
  3. 独立缩放:FreSca 引入两个缩放因子(l 和 h),分别用于低频和高频分量。通过调整这些因子,FreSca 可以独立控制图像的结构和细节,从而实现更高质量的编辑效果。
  4. 傅里叶域操作:所有操作都在傅里叶域中完成,最后通过逆傅里叶变换将结果转换回空间域。这种方法保持了与原始扩散模型的紧密联系,同时提供了更灵活的控制能力。

应用场景

  1. 图像编辑
    • 精确编辑:FreSca 可以根据文本提示(如“将汽车涂成黄色”)对图像进行精确编辑,同时保持图像的整体风格和语义一致性。
    • 细节增强:通过调整高频分量,FreSca 可以增强图像的细节和纹理,使编辑后的图像更加逼真。
    • 示例:在实验中,FreSca 被应用于 Edited-Friendly DDPM Inversion 和 LEdits++ 等方法,显著提升了编辑质量和目标概念的增强效果。
  2. 深度估计
    • 单目深度估计:FreSca 被集成到 Marigold 方法中,通过增强高频分量,FreSca 能够更准确地恢复深度图中的细节和结构,减少模糊。
    • 视频深度估计:FreSca 还被应用于 ChronoDepth 方法,提升了视频深度估计的准确性和时间一致性。
    • 示例:在 DIODE、KITTI 和 ETH3D 等基准测试中,FreSca 提升了 Marigold 的性能,特别是在高分辨率图像和复杂场景中表现更为突出。
© 版权声明

相关文章

暂无评论

none
暂无评论...