如何让图像生成模型“遗忘”一个概念?东北大学与MIT提出扩散模型概念擦除新方法

新技术4个月前发布 小马良
170 0

随着图像生成模型(如Stable Diffusion、Flux等)在质量和可控性上的飞速进步,其潜在风险也日益凸显:

  • 生成裸露或暴力内容
  • 模仿特定艺术家风格引发版权争议
  • 复现受保护的商标或人物形象

现有安全机制多依赖推理时过滤后处理检测,但当用户拥有模型权重时,这些方法极易被绕过。真正的安全,必须从“源头”入手。

东北大学与麻省理工学院的研究团队提出一种新方法——Erasing(简称ESD),通过微调模型权重,直接从扩散模型中“擦除”特定视觉概念。该方法无需额外训练数据,仅凭一段文本描述即可实现永久性概念移除,且难以被规避。

如何让图像生成模型“遗忘”一个概念?东北大学与MIT提出扩散模型概念擦除新方法

为什么需要“擦除”视觉概念?

大型扩散模型是在海量互联网数据上训练而成的“视觉百科全书”。它们能生成精美图像,也能复现训练集中存在的敏感内容。

这带来了三类核心问题:

风险类型具体表现社会影响
安全风险生成深度伪造色情内容、暴力图像侵犯隐私、助长网络骚扰
版权争议模仿特定艺术家风格(如Greg Rutkowski)艺术家集体诉讼,行业信任危机
法律合规生成受版权或商标保护的形象(如米老鼠)企业发布模型面临法律障碍

尽管已有“安全潜扩散”(SLS)、负面提示引导等缓解手段,但这些方法均作用于推理阶段,用户只需移除过滤模块或修改提示词即可绕过。

真正的解决方案,必须写进模型本身。

核心思路:用模型的知识,让它学会“遗忘”

Erasing 方法的核心思想简洁而深刻:

既然模型能生成某个概念,那它就“知道”这个概念——我们可以利用这种知识,反过来教会它“不再生成”。

传统概念移除方法通常需要:

  • 收集大量目标概念图像
  • 在清洗后的数据集上重新训练整个模型

成本高、效率低、难以部署。

而 ESD 完全不同:
✅ 无需额外数据:仅使用预训练模型自身的生成能力;
✅ 仅需微调:不重新训练,大幅降低计算开销;
✅ 永久生效:直接修改权重,无法通过推理策略绕过。

技术实现:通过反向引导重塑生成分布

ESD 的核心机制是对抗性微调

  1. 冻结原始模型,作为“教师”;
  2. 给定要擦除的概念(如“nudity”或“in the style of Van Gogh”),用该提示生成噪声预测;
  3. 训练新模型在相同条件下,向相反方向预测噪声;
  4. 重复迭代,逐步削弱该概念在生成过程中的影响力。

这一过程类似于“反向分类器引导”(classifier-free guidance),但应用于训练阶段而非推理阶段。

最终,模型学会在面对相关提示时主动抑制该概念的出现,实现概念级遗忘

编辑哪些权重?两种策略适应不同场景

研究团队提出了两种微调策略,分别针对不同类型的擦除需求:

1. ESD-x:仅微调交叉注意力层

  • 仅修改文本-图像对齐相关的交叉注意力模块
  • 效果:仅当提示中明确提及某概念时才触发擦除
  • 适用场景:艺术风格控制(如“不再生成毕加索风格”,但保留其他风格)

✅ 精细控制,干扰小
❌ 若提示绕开关键词,仍可能生成

2. ESD-u:微调无条件层(除交叉注意力外)

  • 修改自注意力、前馈网络等与文本无关的模块
  • 效果:无论提示如何,模型都难以生成目标概念
  • 适用场景:敏感内容过滤(如裸露、暴力),即使提示隐晦也能有效拦截

✅ 泛化性强,安全性高
❌ 可能影响相关语义(如擦除“裸露”可能影响“游泳”场景)

实验验证:在多个任务上优于现有方法

1. 艺术风格擦除

  • 使用用户研究评估:相比负面提示、SLS等方法,ESD 在保留图像质量的同时,更彻底地去除了目标风格;
  • 干扰测试显示,对其他未指定风格的影响极小。

2. 裸露内容过滤

  • 对比 Stable Diffusion v2.0/v2.1(内置审查)、SLS(推理过滤):
    • ESD-u 擦除成功率更高
    • 在模糊提示(如“沙滩上的人”)下仍能有效拦截不当内容
  • 微调仅需数小时,在单卡A100上即可完成

3. 物体类别擦除

  • 成功从模型中移除“猫”“汽车”等类别
  • 但发现:擦除大型语义类别时,可能对相关概念产生连带影响(如擦除“猫”影响“宠物”生成)

主要优势总结

特性说明
永久性直接修改模型权重,发布后也无法轻易恢复
抗绕过不依赖推理时过滤,用户无法通过修改提示规避
高效性仅需微调,无需重新训练整个模型
无数据依赖利用模型自身知识,无需收集额外图像
灵活部署可选择局部(ESD-x)或全局(ESD-u)擦除策略

局限与挑战

尽管 ESD 表现出色,但仍存在一些限制:

  • 权衡擦除强度与干扰:完全擦除复杂概念(如“裸露”)可能导致语义邻近内容受损;
  • 多义词处理困难:某些词在不同语境下含义不同(如“nude”可指肤色或裸体);
  • 长期记忆问题:目前尚不清楚擦除效果是否在持续微调或任务迁移中保持稳定。

意义与展望

ESD 提供了一种从模型内部实现内容治理的新范式。它不是简单的“黑名单”,而是一种可编程的内容控制机制

对于模型发布者而言,这意味着:

  • 可在开源前主动移除高风险概念;
  • 满足不同地区的内容合规要求;
  • 减少版权纠纷风险,提升商业可用性。

未来,这类“可编辑性”技术或将与模型训练流程深度集成,形成“生成-审查-编辑”一体化的负责任AI开发框架。

© 版权声明

相关文章

暂无评论

none
暂无评论...