Heretic

2周前发布 11 00

Heretic 是一款开源工具,通过参数消融(parameter ablation)技术,在不进行后训练的前提下,降低语言模型对特定提示的拒绝率(即减少“安全对齐”行为),同时最大限度保留原始模型的语言能力。

所在地:
美国
收录时间:
2025-11-21

Heretic 是一款开源工具,通过参数消融(parameter ablation)技术,在不进行后训练的前提下,降低语言模型对特定提示的拒绝率(即减少“安全对齐”行为),同时最大限度保留原始模型的语言能力。

Heretic

该工具基于 方向性消融(directional ablation,又称 “abliteration”)方法,并结合 Optuna 的 TPE 优化器,实现全流程自动化:从拒绝方向识别、消融参数搜索,到模型生成与评估,均无需人工干预。

核心原理

Heretic 在模型的每层 Transformer 中识别与“拒绝行为”相关的方向(通过对比有害/无害提示的首 token 残差均值差计算),并对关键组件(如注意力输出投影、MLP 降维层)的权重矩阵进行正交化处理,削弱该方向的激活。

Heretic

其创新点包括:

  • 连续方向空间搜索:拒绝方向索引支持浮点值,通过对相邻方向插值,探索更优干预方向。
  • 分组件差异化消融:为注意力与 MLP 层分别优化消融强度,避免过度损伤模型能力。
  • 可调消融核形状:消融权重在深度维度上非均匀分布,由优化器自动确定最佳配置。

效果:更低损伤,更高服从性

在 Gemma-3-12B-Instruct 模型上的测试显示,Heretic 去对齐版本在保持同等低拒绝率(3/100)的同时,对原始模型的 KL 散度显著更低,表明其输出分布更接近原模型:

模型有害提示拒绝次数KL 散度(vs 原始)
原始模型97/1000.00
社区手动消融版3/1000.45–1.04
Heretic 自动生成版3/1000.16

注:结果基于 PyTorch 2.8 + RTX 5090;用户可通过 heretic --evaluate-model 复现评估。

使用方式:命令行即可操作

  1. 创建 Python 3.10+ 环境,安装 PyTorch 2.2+
  2. 安装 Heretic:
    pip install heretic-llm
    
  3. 运行去对齐(全程自动):
    heretic Qwen/Qwen3-4B-Instruct-2507
    
  • 自动检测硬件,选择最优批大小
  • Llama-3.1-8B 在 RTX 3090 上约需 45 分钟
  • 完成后可选择:保存本地、上传 Hugging Face、或直接测试聊天

支持范围

  • ✅ 大多数密集架构模型(包括部分多模态模型)
  • ✅ 多种 MoE(Mixture of Experts)架构
  • ❌ 暂不支持:状态空间模型(SSM)、层结构不一致模型、新型注意力变体

伦理与合规提醒

Heretic 生成的模型可能绕过原厂安全机制,不应在生产环境或对安全性有要求的场景中使用。该工具仅用于研究、审计或红队测试,使用者须自行承担合规与伦理责任。

数据统计

相关导航

暂无评论

none
暂无评论...