如何让AI“不生成某物”？UBC研究人员提出轻量级负提示新方案VSF

186 0

在文本到图像生成中，如何让模型“不生成某样东西”——例如“一只没有翅膀的鸟”或“一辆没有轮子的自行车”——始终是一个挑战。尽管正向提示可以引导生成内容，但负提示（negative prompt）的执行往往不尽如人意：要么无效，要么适得其反，甚至强化了本应避免的概念。

项目主页：https://vsf.weasoft.com
GitHub：https://github.com/weathon/VSF
Demo：https://huggingface.co/spaces/weathon/VSF
ComfyUI节点：https://github.com/weathon/VSF/tree/main/comfyui

不列颠哥伦比亚大学（UBC）的研究团队近期提出了一种名为 Value Sign Flip (VSF) 的新方法，以极低的计算开销，在少步甚至单步生成模型中实现了更准确、更稳定的负提示控制。该方法已在 Stable Diffusion 3.5 Turbo、Flux 和 Wan 等先进模型上验证有效，支持静态图像与视频生成任务。

问题背景：负提示为何难以奏效？

在当前主流扩散模型中，负提示通常通过无分类器引导（Classifier-Free Guidance, CFG）机制实现：模型分别基于正提示和负提示生成两个噪声预测，再通过加权差值进行修正。然而，这种方法存在明显局限：

效果有限：对于复杂语义（如“无刹车的自行车”），CFG 往往无法彻底抑制目标特征；
副作用明显：过度增强负引导可能导致图像质量下降或语义扭曲；
依赖强引导强度：需手动调参，易导致“负提示反向激活”——即模型反而更关注被否定的内容。

已有改进方法如 NASA、NAG 虽有所提升，但仍依赖复杂架构修改或额外训练，难以广泛部署。

VSF：用“符号翻转”实现轻量级负提示控制

VSF（Value Sign Flip） 的核心思想简洁而有力：

在注意力机制中，动态翻转负提示对应值向量（value）的符号，从而抵消其对生成结果的影响。

这种方法不依赖重新训练，也不改变模型结构，仅需在推理时对注意力计算做微小调整，即可显著提升负提示遵循能力。

工作原理：四步实现精准抑制

VSF 在跨注意力层中引入以下四个关键设计：

1. 值向量符号翻转

将正提示与负提示的键（key）和值（value）拼接输入注意力层，但对负提示的 value 乘以一个负系数 -α：

[Q] → Attention → Output
[K_pos, K_neg]
[V_pos, -α × V_neg]

这样，当查询（query）关注负提示区域时，其响应会被反向加权，从而削弱甚至消除该特征的生成倾向。

2. 注意力掩码 + 嵌入复制

为防止符号翻转影响后续 MLP 层的语义表达，VSF 采用双路径嵌入复制策略：

一份用于注意力计算（翻转 value）
一份保持原始语义（用于后续前馈网络）

并通过注意力掩码隔离正负提示之间的干扰，确保正提示不受污染。

3. 引入负注意力偏置（-β）

在图像 token 到负提示 token 的注意力路径上添加一个可学习或固定的负偏置 -β，进一步降低模型对负提示的关注度，减少“无意激活”的风险。

4. 去除填充标记（Padding Removal）

自动识别并移除负提示中的填充符号（padding tokens），避免这些无意义标记参与注意力计算，提升引导效率。

主要优势

特性	说明
⚡ 极低开销	无需额外训练，仅增加少量推理计算，适用于少步甚至单步生成
🔧 即插即用	兼容基于 MMDiT 和跨注意力架构的模型（如 SD3.5、Wan）
🎯 精准控制	动态调节引导强度，避免过度抑制或语义漂移
🚫 防止反向激活	显著降低“越否定越出现”的问题，提升负提示可靠性
📽️ 支持视频生成	已在 Wan 模型上实现 480p 视频生成（81帧），全程仅需约30秒