上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

图像模型4个月前发布 小马良
245 0

上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中高效、精确地提取前景对象,尤其在复杂边缘(如发丝、半透明物体)的处理上表现突出。

这项工作并非简单套用现有生成模型,而是针对抠图任务的特点,对扩散模型进行了系统性重构与增强,实现了从“文本驱动”到“视觉提示驱动”的关键转变。

上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

为什么需要新的抠图方法?

图像抠图(Image Matting)的目标是为前景对象生成一个精细的 alpha 通道——即每个像素的透明度值,用于实现前景与背景的无缝融合。在人像编辑、影视特效、虚拟现实等场景中,高质量的 alpha 通道至关重要。

然而,传统方法在处理以下两类问题时存在明显短板:

  • 复杂边缘:如飘动的发丝、羽毛、烟雾等,边界模糊且高频细节丰富;
  • 多实例干扰:当图像中存在多个相似对象时,难以准确区分目标与非目标区域。

近年来,一些基于深度学习的方法虽能较好捕捉主体区域,但在细粒度边缘恢复方面仍显不足。而扩散模型凭借其强大的先验知识和细节生成能力,为解决这些问题提供了新思路。

上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

SDMatte 的核心设计

SDMatte 的核心思想是:利用预训练扩散模型的强大生成能力,并将其文本驱动机制转化为视觉提示驱动机制,从而实现精准可控的交互式抠图

上海大学联合vivo推出新型交互式图像抠图方法SDMatte:用扩散模型重新定义交互式抠图

具体来说,研究团队提出了三项关键技术改进:

1. 视觉提示驱动的交互机制

传统扩散模型依赖文本提示控制生成过程。SDMatte 则将这一机制迁移到视觉提示上——用户只需在图像中标注一个点、画一个框,或粗略勾勒一个掩码,模型即可据此定位并提取目标。

实现方式是:将视觉提示编码为条件输入,替代原始文本嵌入,在 U-Net 的交叉注意力层中引导特征生成。

2. 坐标与透明度嵌入

为了提升模型对空间位置和透明度变化的敏感性,SDMatte 引入了两种嵌入信息:

  • 坐标嵌入(Coordinate Embedding):将每个像素的二维坐标映射为向量,注入 U-Net 各层级,增强空间感知;
  • 透明度嵌入(Transparency Embedding):显式建模 alpha 值分布先验,帮助模型更好地预测渐变区域。

这两种嵌入共同作用,使模型在处理半透明边缘时更具鲁棒性。

3. 掩码自注意力机制(Mask Self-Attention)

为了进一步聚焦于用户指定区域,SDMatte 设计了一种掩码引导的自注意力模块。该机制通过掩码区域生成注意力权重,抑制无关背景响应,强化前景区域的特征表达。

这不仅提升了抠图精度,也提高了模型在多对象场景下的选择性。

工作流程简述

  1. 输入编码:原始图像与视觉提示(点/框/掩码)通过 VAE 编码器转换至潜在空间;
  2. 条件融合:视觉提示经坐标编码后与潜在特征拼接,作为 U-Net 的控制信号;
  3. 扩散去噪:在多个时间步中逐步去噪,结合透明度嵌入与掩码自注意力机制优化中间特征;
  4. 解码输出:最终输出经 VAE 解码,得到高分辨率 alpha 通道;
  5. 监督训练:使用 MSE、SAD、Grad 等损失函数端到端优化模型。

整个流程可在少量交互下完成高质量抠图,响应迅速且结果稳定。

实验表现:全面领先

研究团队在多个公开抠图数据集上进行了测试,包括:

  • AIM-500
  • AM-2k
  • P3M
  • RefMatte-RW-100(多实例挑战集)

评估指标涵盖 MSE、MAD、SAD、Grad 和 Conn,均为业界标准。

关键结果摘要:

数据集提示类型MSESAD
AIM-5000.010931.80
AM-2k0.006017.54
P3M掩码显著优于基线

在所有测试中,SDMatte 均优于当前主流方法,尤其在点提示模式下优势明显——说明即使用户仅点击目标中心,模型也能准确还原完整轮廓与细节。

此外,在 RefMatte-RW-100 多实例数据集上的表现表明,SDMatte 具备良好的目标区分能力,不易受邻近干扰物影响。

轻量版 LiteSDMatte:兼顾效率与性能

考虑到移动端部署需求,团队还推出了轻量版本 LiteSDMatte

  • 替换原始 VAE 为轻量编码器-解码器;
  • 使用精简版 U-Net 架构;
  • 计算量降低约 40%,参数规模减少近半;
  • 在保持 90% 以上性能的同时,推理速度显著提升。

这一设计为未来在手机端实现实时交互式抠图提供了可行性路径。

应用前景

SDMatte 不仅适用于专业图像编辑软件,也可集成至消费级应用中,例如:

  • 手机相册中的一键抠图换背景;
  • 视频会议中的实时人像分割;
  • AR/VR 内容创作中的快速素材提取;
  • 电商商品图自动化处理。

其对低交互成本与高输出质量的平衡,使其具备较强的实用潜力。

© 版权声明

相关文章

暂无评论

none
暂无评论...