上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型(Stable Diffusion),支持点、框和掩码三种视觉提示,能够从自然图像中高效、精确地提取前景对象,尤其在复杂边缘(如发丝、半透明物体)的处理上表现突出。
这项工作并非简单套用现有生成模型,而是针对抠图任务的特点,对扩散模型进行了系统性重构与增强,实现了从“文本驱动”到“视觉提示驱动”的关键转变。

为什么需要新的抠图方法?
图像抠图(Image Matting)的目标是为前景对象生成一个精细的 alpha 通道——即每个像素的透明度值,用于实现前景与背景的无缝融合。在人像编辑、影视特效、虚拟现实等场景中,高质量的 alpha 通道至关重要。
然而,传统方法在处理以下两类问题时存在明显短板:
- 复杂边缘:如飘动的发丝、羽毛、烟雾等,边界模糊且高频细节丰富;
- 多实例干扰:当图像中存在多个相似对象时,难以准确区分目标与非目标区域。
近年来,一些基于深度学习的方法虽能较好捕捉主体区域,但在细粒度边缘恢复方面仍显不足。而扩散模型凭借其强大的先验知识和细节生成能力,为解决这些问题提供了新思路。

SDMatte 的核心设计
SDMatte 的核心思想是:利用预训练扩散模型的强大生成能力,并将其文本驱动机制转化为视觉提示驱动机制,从而实现精准可控的交互式抠图。

具体来说,研究团队提出了三项关键技术改进:
1. 视觉提示驱动的交互机制
传统扩散模型依赖文本提示控制生成过程。SDMatte 则将这一机制迁移到视觉提示上——用户只需在图像中标注一个点、画一个框,或粗略勾勒一个掩码,模型即可据此定位并提取目标。
实现方式是:将视觉提示编码为条件输入,替代原始文本嵌入,在 U-Net 的交叉注意力层中引导特征生成。
2. 坐标与透明度嵌入
为了提升模型对空间位置和透明度变化的敏感性,SDMatte 引入了两种嵌入信息:
- 坐标嵌入(Coordinate Embedding):将每个像素的二维坐标映射为向量,注入 U-Net 各层级,增强空间感知;
- 透明度嵌入(Transparency Embedding):显式建模 alpha 值分布先验,帮助模型更好地预测渐变区域。
这两种嵌入共同作用,使模型在处理半透明边缘时更具鲁棒性。
3. 掩码自注意力机制(Mask Self-Attention)
为了进一步聚焦于用户指定区域,SDMatte 设计了一种掩码引导的自注意力模块。该机制通过掩码区域生成注意力权重,抑制无关背景响应,强化前景区域的特征表达。
这不仅提升了抠图精度,也提高了模型在多对象场景下的选择性。
工作流程简述
- 输入编码:原始图像与视觉提示(点/框/掩码)通过 VAE 编码器转换至潜在空间;
- 条件融合:视觉提示经坐标编码后与潜在特征拼接,作为 U-Net 的控制信号;
- 扩散去噪:在多个时间步中逐步去噪,结合透明度嵌入与掩码自注意力机制优化中间特征;
- 解码输出:最终输出经 VAE 解码,得到高分辨率 alpha 通道;
- 监督训练:使用 MSE、SAD、Grad 等损失函数端到端优化模型。
整个流程可在少量交互下完成高质量抠图,响应迅速且结果稳定。
实验表现:全面领先
研究团队在多个公开抠图数据集上进行了测试,包括:
- AIM-500
- AM-2k
- P3M
- RefMatte-RW-100(多实例挑战集)
评估指标涵盖 MSE、MAD、SAD、Grad 和 Conn,均为业界标准。
关键结果摘要:
| 数据集 | 提示类型 | MSE | SAD |
|---|---|---|---|
| AIM-500 | 点 | 0.0109 | 31.80 |
| AM-2k | 点 | 0.0060 | 17.54 |
| P3M | 掩码 | 显著优于基线 |
在所有测试中,SDMatte 均优于当前主流方法,尤其在点提示模式下优势明显——说明即使用户仅点击目标中心,模型也能准确还原完整轮廓与细节。
此外,在 RefMatte-RW-100 多实例数据集上的表现表明,SDMatte 具备良好的目标区分能力,不易受邻近干扰物影响。
轻量版 LiteSDMatte:兼顾效率与性能
考虑到移动端部署需求,团队还推出了轻量版本 LiteSDMatte:
- 替换原始 VAE 为轻量编码器-解码器;
- 使用精简版 U-Net 架构;
- 计算量降低约 40%,参数规模减少近半;
- 在保持 90% 以上性能的同时,推理速度显著提升。
这一设计为未来在手机端实现实时交互式抠图提供了可行性路径。
应用前景
SDMatte 不仅适用于专业图像编辑软件,也可集成至消费级应用中,例如:
- 手机相册中的一键抠图换背景;
- 视频会议中的实时人像分割;
- AR/VR 内容创作中的快速素材提取;
- 电商商品图自动化处理。
其对低交互成本与高输出质量的平衡,使其具备较强的实用潜力。















