上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

467 0

上海大学与 vivo 联合研究团队近期提出一种名为 SDMatte 的新型交互式图像抠图方法。该方法基于稳定扩散模型（Stable Diffusion），支持点、框和掩码三种视觉提示，能够从自然图像中高效、精确地提取前景对象，尤其在复杂边缘（如发丝、半透明物体）的处理上表现突出。

GitHub：https://github.com/vivoCameraResearch/SDMatte
模型：https://huggingface.co/LongfeiHuang/SDMatte

这项工作并非简单套用现有生成模型，而是针对抠图任务的特点，对扩散模型进行了系统性重构与增强，实现了从“文本驱动”到“视觉提示驱动”的关键转变。

上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

为什么需要新的抠图方法？

图像抠图（Image Matting）的目标是为前景对象生成一个精细的 alpha 通道——即每个像素的透明度值，用于实现前景与背景的无缝融合。在人像编辑、影视特效、虚拟现实等场景中，高质量的 alpha 通道至关重要。

然而，传统方法在处理以下两类问题时存在明显短板：

复杂边缘：如飘动的发丝、羽毛、烟雾等，边界模糊且高频细节丰富；
多实例干扰：当图像中存在多个相似对象时，难以准确区分目标与非目标区域。

近年来，一些基于深度学习的方法虽能较好捕捉主体区域，但在细粒度边缘恢复方面仍显不足。而扩散模型凭借其强大的先验知识和细节生成能力，为解决这些问题提供了新思路。

SDMatte 的核心设计

SDMatte 的核心思想是：利用预训练扩散模型的强大生成能力，并将其文本驱动机制转化为视觉提示驱动机制，从而实现精准可控的交互式抠图。

具体来说，研究团队提出了三项关键技术改进：

1. 视觉提示驱动的交互机制

传统扩散模型依赖文本提示控制生成过程。SDMatte 则将这一机制迁移到视觉提示上——用户只需在图像中标注一个点、画一个框，或粗略勾勒一个掩码，模型即可据此定位并提取目标。

实现方式是：将视觉提示编码为条件输入，替代原始文本嵌入，在 U-Net 的交叉注意力层中引导特征生成。

2. 坐标与透明度嵌入

为了提升模型对空间位置和透明度变化的敏感性，SDMatte 引入了两种嵌入信息：

坐标嵌入（Coordinate Embedding）：将每个像素的二维坐标映射为向量，注入 U-Net 各层级，增强空间感知；
透明度嵌入（Transparency Embedding）：显式建模 alpha 值分布先验，帮助模型更好地预测渐变区域。

这两种嵌入共同作用，使模型在处理半透明边缘时更具鲁棒性。

3. 掩码自注意力机制（Mask Self-Attention）

为了进一步聚焦于用户指定区域，SDMatte 设计了一种掩码引导的自注意力模块。该机制通过掩码区域生成注意力权重，抑制无关背景响应，强化前景区域的特征表达。

这不仅提升了抠图精度，也提高了模型在多对象场景下的选择性。

工作流程简述

输入编码：原始图像与视觉提示（点/框/掩码）通过 VAE 编码器转换至潜在空间；
条件融合：视觉提示经坐标编码后与潜在特征拼接，作为 U-Net 的控制信号；
扩散去噪：在多个时间步中逐步去噪，结合透明度嵌入与掩码自注意力机制优化中间特征；
解码输出：最终输出经 VAE 解码，得到高分辨率 alpha 通道；
监督训练：使用 MSE、SAD、Grad 等损失函数端到端优化模型。

整个流程可在少量交互下完成高质量抠图，响应迅速且结果稳定。

实验表现：全面领先

研究团队在多个公开抠图数据集上进行了测试，包括：

AIM-500
AM-2k
P3M
RefMatte-RW-100（多实例挑战集）

评估指标涵盖 MSE、MAD、SAD、Grad 和 Conn，均为业界标准。

关键结果摘要：

数据集	提示类型	MSE	SAD
AIM-500	点	0.0109	31.80
AM-2k	点	0.0060	17.54
P3M	掩码	显著优于基线

在所有测试中，SDMatte 均优于当前主流方法，尤其在点提示模式下优势明显——说明即使用户仅点击目标中心，模型也能准确还原完整轮廓与细节。

此外，在 RefMatte-RW-100 多实例数据集上的表现表明，SDMatte 具备良好的目标区分能力，不易受邻近干扰物影响。

轻量版 LiteSDMatte：兼顾效率与性能

考虑到移动端部署需求，团队还推出了轻量版本 LiteSDMatte：

替换原始 VAE 为轻量编码器-解码器；
使用精简版 U-Net 架构；
计算量降低约 40%，参数规模减少近半；
在保持 90% 以上性能的同时，推理速度显著提升。

这一设计为未来在手机端实现实时交互式抠图提供了可行性路径。

应用前景

SDMatte 不仅适用于专业图像编辑软件，也可集成至消费级应用中，例如：

手机相册中的一键抠图换背景；
视频会议中的实时人像分割；
AR/VR 内容创作中的快速素材提取；
电商商品图自动化处理。

其对低交互成本与高输出质量的平衡，使其具备较强的实用潜力。

图像模型 # SDMatte # 图像抠图

文章版权归作者所有，未经允许请勿转载。

Krea AI 正式发布首款图像模型 Krea 1：专治“AI味”画面！

图像模型 # Krea 1 # Krea AI # 图像模型

9个月前

03820

海贼王漫画风格LoRA模型：One Piece Manga Style

图像模型 # LoRA模型 # 海贼王

1年前

07120

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

图像模型 # IntrinsiX # PBR

11个月前

02710

黑森林实验室发布 FLUX.2 [klein]：统一生成与编辑的最快开源模型

图像模型 # FLUX.2 [klein]# 黑森林实验室

2个月前

01900

暂无评论

暂无评论...

上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

为什么需要新的抠图方法？

SDMatte 的核心设计

1. 视觉提示驱动的交互机制

2. 坐标与透明度嵌入

3. 掩码自注意力机制（Mask Self-Attention）

工作流程简述

实验表现：全面领先

关键结果摘要：

轻量版 LiteSDMatte：兼顾效率与性能

应用前景

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

X-Omni：腾讯混元提出统一图像与语言生成的离散自回归新模型

相关文章

Krea AI 正式发布首款图像模型 Krea 1：专治“AI味”画面！

海贼王漫画风格LoRA模型：One Piece Manga Style

IntrinsiX：能够直接从文本描述生成高质量的物理基础渲染（PBR）图像

黑森林实验室发布 FLUX.2 [klein]：统一生成与编辑的最快开源模型

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

ComfyUI-OpenClaw：安全优先的ComfyUI自动化扩展，LLM辅助+API+Webhook全支持

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

上海大学联合vivo推出新型交互式图像抠图方法SDMatte：用扩散模型重新定义交互式抠图

为什么需要新的抠图方法？

SDMatte 的核心设计

1. 视觉提示驱动的交互机制

2. 坐标与透明度嵌入

3. 掩码自注意力机制（Mask Self-Attention）

工作流程简述

实验表现：全面领先

关键结果摘要：

轻量版 LiteSDMatte：兼顾效率与性能

应用前景

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

X-Omni：腾讯混元提出统一图像与语言生成的离散自回归新模型

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw