OBLITERATUS

4周前更新 11 00

OBLITERATUS 是一个最先进的开源工具包，它不通过重新训练或微调来“覆盖”模型的价值观，而是利用机械可解释性（Mechanistic Interpretability）技术，精准定位并手术式移除那些负责拒绝行为的内部权重方向。

所在地：

美国

收录时间：

2026-03-07

其他站点:

打开网站手机查看

AI工具 # OBLITERATUS # 模型训练

OBLITERATUS

OBLITERATUS

在AI对齐（Alignment）成为行业标准的今天，大型语言模型（LLM）普遍被植入了严格的拒绝机制。这些机制虽然旨在阻止有害内容，却往往矫枉过正，导致模型在面对合法的研究、创意写作或红队测试时产生生硬的自我审查。

OBLITERATUS 是一个最先进的开源工具包，它不通过重新训练或微调来“覆盖”模型的价值观，而是利用机械可解释性（Mechanistic Interpretability）技术，精准定位并手术式移除那些负责拒绝行为的内部权重方向。

这不仅是一个工具，更是一场分布式的研究实验：每一次运行，都在为人类理解 Transformer 内部的“权力几何”贡献数据。

核心使命：四步走战略

OBLITERATUS 不仅仅是一键解锁脚本，它提供了一套完整的科学流程，从探测到干预，再到验证与分析。

1. 绘制链条地图 (Map the Chains)

通过系统的消融研究（Ablation Studies），OBLITERATUS 会逐个“敲除”模型的组件（层、注意力头、FFN 块、嵌入维度），观察哪些功能的丧失会导致拒绝行为消失。

目标：精准定位执行拒绝的“神经回路”，区分哪些电路承载知识与推理，哪些仅仅是人为植入的护栏。

2. 打破链条 (Break the Chains)

这是核心操作阶段。利用 SVD（奇异值分解） 等技术，从模型权重中提取出“拒绝子空间”，然后将其手术式地投影出去。

六步流程：
1. 召唤：加载模型与分词器。
2. 探测：收集受限与非受限提示下的激活状态。
3. 蒸馏：提取拒绝方向向量。
4. 切除：投影移除护栏方向（保持范数不变）。
5. 验证：检查困惑度与连贯性，确保核心能力未受损。
6. 重生：保存解放后的模型。
结果：模型保留了全部的语言能力和逻辑推理能力，但失去了人为强制的拒绝反应。

3. 理解链条的几何结构 (Understand the Geometry)

内置 15 个深度分析模块，不仅暴力移除，更深入剖析护栏的数学本质：

存在多少种独立的拒绝机制？
它们分布在哪些层？是通用的还是模型特有的？
移除后，模型是否会尝试“自我修复”？

4. 让分析引导解放 (Analysis-Guided Liberation)

形成闭环：分析模块自动配置消除策略。

自动决定针对哪些方向、提取多少个向量。
智能判断哪些层适合修改，哪些与核心能力纠缠过深需避开。
预测并补偿模型的自我修复效应，实现手术级精度。

独特优势：为何 OBLITERATUS 与众不同？

核心能力	功能描述	战略意义
概念锥几何	映射每个类别的护栏立体角	揭示“拒绝”是单一机制还是多重机制，指导方法选择。
对齐印记检测	识别 DPO vs RLHF vs CAI vs SFT	仅凭子空间指纹即可判断训练方法，定制最优移除策略。
跨模型通用性指数	衡量护栏方向的普适性	回答“一套方向能否通杀所有模型？”的关键问题。
防御鲁棒性评估	量化自我修复与安全 - 能力纠缠	预测移除后护栏是否会再生，避免无效操作。
白化 SVD 提取	协方差归一化的方向提取	分离护栏信号与自然激活方差，提取更纯净。
偏置项投影	从偏置向量中移除护栏	填补其他工具遗漏的盲区，彻底阻断拒绝通路。
真正的迭代优化	每次传递后重新探测	捕捉因投影而旋转到相邻子空间的残余护栏。
分析知情流程	自动配置消除策略	闭合“分析→移除”反馈循环，实现自动化手术。

前沿技术栈 (2025-2026 novelty)

OBLITERATUS 集成了多项超越当前公开水平的创新技术：

专家粒度消除 (EGA)：专为 MoE 架构设计，利用路由器 logits 分解拒绝信号。
思维链感知消融：将拒绝方向与推理关键方向正交化，完美保留 CoT 能力。
COSMIC 层选择：基于 arXiv:2506.00085，选择有害/无害表征分离度最高的层进行操作。
参数化核优化：使用 Optuna TPE 搜索全局参数，实现钟形曲线层加权。
拒绝方向优化 (RDO)：基于梯度优化 SVD 提取的方向，精度更高。
基于 LoRA 的可逆消融：使用秩为 1 的 LoRA 适配器代替永久权重修改，随时可逆。
KL 散度协同优化：若超过 KL 预算，自动反馈恢复过度投影的层，防止能力崩塌。

社区驱动的研究：你也是科学家

OBLITERATUS 的第五大功能是众包科学。
当你启用遥测功能运行消除时，你的匿名数据将汇入一个不断增长的社区基准数据集。这将帮助我们回答单个实验室无法解决的宏大问题：

不同训练方法（RLHF, DPO, CAI）留下的“对齐指纹”有何区别？
护栏方向在 Llama、Mistral、Qwen 等不同架构间是否通用？
模型被“解放”后，多久会尝试自我修复？哪一层是修复的源头？

“可观测性本身就是一个目标。”
OBLITERATUS 呼吁我们：不要只是使用这些系统，要去理解它们。绘制其内部的权力几何，然后将选择权掌握在自己手中。

如何使用？

小白用户：访问 HuggingFace Spaces，使用基于 Gradio 的图形界面。无需编写代码，即可上传模型、一键消除、对比聊天。
研究人员：通过 Python API 调用每一个中间产物（激活张量、方向向量、对齐矩阵），集成到自己的评估框架或构建新的分析工具。

OBLITERATUS：让模型行为由部署者决定，而非被训练时锁定。

打破枷锁，解放心智，保留大脑。

OBLITERATUS

数据统计

相关导航

Droidrun

DroidRun 是一个强大的框架，通过大语言模型（LLM）代理控制 Android 和 iOS 设备。它允许使用自然语言命令实现设备交互的自动化。

DiffSynth-Studio

DiffSynth-Studio

DiffSynth Studio 是一个开源的扩散引擎，专注于 AI 生成内容（AIGC）技术创新，特别适合学术研究。它通过连接开源扩散模型，提供尖端技术支持和新型推理能力，帮助用户探索图像和视频生成的新可能性。

Supervision

Supervision 是一个功能强大、灵活的计算机视觉工具包，适合从初学者到专业开发者。其模块化设计、与主流模型的兼容性以及丰富的可视化工具使其成为快速开发计算机视觉应用的理想选择。通过社区贡献和持续更新，Supervision 不断扩展功能，适应多样化的应用需求。

markdown.new

markdown.new 是一个完全免费、无需注册的在线工具，能将任何公开 URL 瞬间转换为清晰、结构化的 Markdown 格式。据官方测试，相较于原始 HTML，它能减少高达 80% 的 Token 消耗，让 AI 处理更高效、更便宜。

Ai2 Paper Finder

Ai2 Paper Finder

Ai2 Paper Finder是一个由大语言模型驱动的文献搜索系统，目标不是简单返回关键词匹配的结果，而是模拟人类研究者的思考过程，帮你找到真正相关的论文。它不只检索，还会分析、推理、追踪引文、评估相关性，并告诉你：为什么这篇论文值得读。

Sidekick

Sidekick 重新定义了自动化工具的使用方式：你不再需要“配置自动化”，而是“描述自动化”。它将 AI 从“辅助执行者”变为“主动构建者”，让每个人都能轻松创建复杂、可靠、可复用的工作流

BashBuddy

BashBuddy 是一款由AI驱动的终端助手，旨在帮助用户通过自然语言生成 Bash 或 PowerShell 命令，从而提高工作效率。它完全开源，并提供了本地化和云端两种使用方式以满足不同需求。

OneContext

OneContext 是一个由 Agent 自我管理的上下文层，它为你的团队提供所有 AI Agent 的统一上下文，让任何人/任何 Agent 都能从相同的上下文接手工作。

暂无评论

none

暂无评论...