Heretic

4个月前发布 93 00

Heretic 是一款开源工具，通过参数消融（parameter ablation）技术，在不进行后训练的前提下，降低语言模型对特定提示的拒绝率（即减少“安全对齐”行为），同时最大限度保留原始模型的语言能力。

所在地：

美国

收录时间：

2025-11-21

打开网站手机查看

AI工具 # Heretic # 安全对齐

Heretic

Heretic

Heretic 是一款开源工具，通过参数消融（parameter ablation）技术，在不进行后训练的前提下，降低语言模型对特定提示的拒绝率（即减少“安全对齐”行为），同时最大限度保留原始模型的语言能力。

Heretic

该工具基于 方向性消融（directional ablation，又称 “abliteration”）方法，并结合 Optuna 的 TPE 优化器，实现全流程自动化：从拒绝方向识别、消融参数搜索，到模型生成与评估，均无需人工干预。

核心原理

Heretic 在模型的每层 Transformer 中识别与“拒绝行为”相关的方向（通过对比有害/无害提示的首 token 残差均值差计算），并对关键组件（如注意力输出投影、MLP 降维层）的权重矩阵进行正交化处理，削弱该方向的激活。

Heretic

其创新点包括：

连续方向空间搜索：拒绝方向索引支持浮点值，通过对相邻方向插值，探索更优干预方向。
分组件差异化消融：为注意力与 MLP 层分别优化消融强度，避免过度损伤模型能力。
可调消融核形状：消融权重在深度维度上非均匀分布，由优化器自动确定最佳配置。

效果：更低损伤，更高服从性

在 Gemma-3-12B-Instruct 模型上的测试显示，Heretic 去对齐版本在保持同等低拒绝率（3/100）的同时，对原始模型的 KL 散度显著更低，表明其输出分布更接近原模型：

模型	有害提示拒绝次数	KL 散度（vs 原始）
原始模型	97/100	0.00
社区手动消融版	3/100	0.45–1.04
Heretic 自动生成版	3/100	0.16

注：结果基于 PyTorch 2.8 + RTX 5090；用户可通过 heretic --evaluate-model 复现评估。

使用方式：命令行即可操作

创建 Python 3.10+ 环境，安装 PyTorch 2.2+
安装 Heretic：
```
pip install heretic-llm
```
运行去对齐（全程自动）：
```
heretic Qwen/Qwen3-4B-Instruct-2507
```

自动检测硬件，选择最优批大小
Llama-3.1-8B 在 RTX 3090 上约需 45 分钟
完成后可选择：保存本地、上传 Hugging Face、或直接测试聊天

支持范围

✅ 大多数密集架构模型（包括部分多模态模型）
✅ 多种 MoE（Mixture of Experts）架构
❌ 暂不支持：状态空间模型（SSM）、层结构不一致模型、新型注意力变体

伦理与合规提醒

Heretic 生成的模型可能绕过原厂安全机制，不应在生产环境或对安全性有要求的场景中使用。该工具仅用于研究、审计或红队测试，使用者须自行承担合规与伦理责任。

数据统计

相关导航

Claude Skills Marketplace

Claude Skills Marketplace

Claude Skills Marketplace 不是“AI 功能大全”，也不是“插件商店”，它是一个开源工具的导航器。它不替你做决定，也不替你写代码。它只是把散落的、有用的、可复用的技能，整理成一张可搜索、可筛选、可安装的清单。

InfiniMind

InfiniMind目标是构建一套基础设施，将海量视频与音频转化为结构化、可查询、可行动的业务洞察。

Zendesk

Zendesk 是一家软件公司，提供基于云的客户服务和销售平台，帮助企业管理支持请求和客户沟通。其通过订阅模式的层级定价计划赚钱，产品包括帮助台、工单系统和销售软件。Zendesk 的平台利用 AI、自动化和人工专长来简化客户和员工支持，目标是提高效率和客户体验。

WriteHERE

WriteHERE 不是简单的 “AI 写作机器人”，而是一款为长篇创作量身打造的 “智能协作框架”—— 它以开源、透明、可定制为核心，用类人化的自适应规划能力，解决了传统 AI 写作工具的僵化问题。

Fibr AI

Fibr AI 利用自主运行的 AI 智能体，在不改动原有网站代码的前提下，为每位访客动态生成个性化的网页内容——从文案、图片到布局，实时调整，持续优化。

PandaWiki

PandaWiki 是一款 AI 大模型驱动的开源知识库搭建系统，帮助你快速构建智能化的产品文档、技术文档、FAQ、博客系统，借助大模型的力量为你提供 AI 创作、AI 问答、AI 搜索等能力。

Hugging Face Skills

Hugging Face Skills

Hugging Face Skills 是一套为 AI/ML 开发任务（如数据集构建、模型训练、评估、论文发布等）设计的标准化协议。它以“技能包”（Skill）的形式，将任务说明、脚本和资源封装成自包含单元，供各类编码智能体（如 Claude Code、Codex、Gemini CLI 等）调用。

macOS-use

macOS-use是由 Browser Use 团队推出，是一个专为 Apple 设备打造的 AI 代理系统。它能让 AI 真正“看懂”MacBook 屏幕内容，并在任意应用中执行操作，就像你在亲自操作一样。

暂无评论

none

暂无评论...