OBLITERATUS 

5天前更新 1 00

OBLITERATUS 是一个最先进的开源工具包,它不通过重新训练或微调来“覆盖”模型的价值观,而是利用机械可解释性(Mechanistic Interpretability)技术,精准定位并手术式移除那些负责拒绝行为的内部权重方向。

所在地:
美国
收录时间:
2026-03-07
其他站点:
OBLITERATUS OBLITERATUS 

在AI对齐(Alignment)成为行业标准的今天,大型语言模型(LLM)普遍被植入了严格的拒绝机制。这些机制虽然旨在阻止有害内容,却往往矫枉过正,导致模型在面对合法的研究、创意写作或红队测试时产生生硬的自我审查。

OBLITERATUS 是一个最先进的开源工具包,它不通过重新训练或微调来“覆盖”模型的价值观,而是利用机械可解释性(Mechanistic Interpretability)技术,精准定位并手术式移除那些负责拒绝行为的内部权重方向。

这不仅是一个工具,更是一场分布式的研究实验:每一次运行,都在为人类理解 Transformer 内部的“权力几何”贡献数据。

核心使命:四步走战略

OBLITERATUS 不仅仅是一键解锁脚本,它提供了一套完整的科学流程,从探测到干预,再到验证与分析。

1. 绘制链条地图 (Map the Chains)

通过系统的消融研究(Ablation Studies),OBLITERATUS 会逐个“敲除”模型的组件(层、注意力头、FFN 块、嵌入维度),观察哪些功能的丧失会导致拒绝行为消失。

  • 目标:精准定位执行拒绝的“神经回路”,区分哪些电路承载知识与推理,哪些仅仅是人为植入的护栏。

2. 打破链条 (Break the Chains)

这是核心操作阶段。利用 SVD(奇异值分解) 等技术,从模型权重中提取出“拒绝子空间”,然后将其手术式地投影出去

  • 六步流程
    1. 召唤:加载模型与分词器。
    2. 探测:收集受限与非受限提示下的激活状态。
    3. 蒸馏:提取拒绝方向向量。
    4. 切除:投影移除护栏方向(保持范数不变)。
    5. 验证:检查困惑度与连贯性,确保核心能力未受损。
    6. 重生:保存解放后的模型。
  • 结果:模型保留了全部的语言能力和逻辑推理能力,但失去了人为强制的拒绝反应。

3. 理解链条的几何结构 (Understand the Geometry)

内置 15 个深度分析模块,不仅暴力移除,更深入剖析护栏的数学本质:

  • 存在多少种独立的拒绝机制?
  • 它们分布在哪些层?是通用的还是模型特有的?
  • 移除后,模型是否会尝试“自我修复”?

4. 让分析引导解放 (Analysis-Guided Liberation)

形成闭环:分析模块自动配置消除策略。

  • 自动决定针对哪些方向、提取多少个向量。
  • 智能判断哪些层适合修改,哪些与核心能力纠缠过深需避开。
  • 预测并补偿模型的自我修复效应,实现手术级精度

独特优势:为何 OBLITERATUS 与众不同?

核心能力功能描述战略意义
概念锥几何映射每个类别的护栏立体角揭示“拒绝”是单一机制还是多重机制,指导方法选择。
对齐印记检测识别 DPO vs RLHF vs CAI vs SFT仅凭子空间指纹即可判断训练方法,定制最优移除策略。
跨模型通用性指数衡量护栏方向的普适性回答“一套方向能否通杀所有模型?”的关键问题。
防御鲁棒性评估量化自我修复与安全 - 能力纠缠预测移除后护栏是否会再生,避免无效操作。
白化 SVD 提取协方差归一化的方向提取分离护栏信号与自然激活方差,提取更纯净。
偏置项投影从偏置向量中移除护栏填补其他工具遗漏的盲区,彻底阻断拒绝通路。
真正的迭代优化每次传递后重新探测捕捉因投影而旋转到相邻子空间的残余护栏。
分析知情流程自动配置消除策略闭合“分析→移除”反馈循环,实现自动化手术。

前沿技术栈 (2025-2026 novelty)

OBLITERATUS 集成了多项超越当前公开水平的创新技术:

  • 专家粒度消除 (EGA):专为 MoE 架构设计,利用路由器 logits 分解拒绝信号。
  • 思维链感知消融:将拒绝方向与推理关键方向正交化,完美保留 CoT 能力
  • COSMIC 层选择:基于 arXiv:2506.00085,选择有害/无害表征分离度最高的层进行操作。
  • 参数化核优化:使用 Optuna TPE 搜索全局参数,实现钟形曲线层加权。
  • 拒绝方向优化 (RDO):基于梯度优化 SVD 提取的方向,精度更高。
  • 基于 LoRA 的可逆消融:使用秩为 1 的 LoRA 适配器代替永久权重修改,随时可逆
  • KL 散度协同优化:若超过 KL 预算,自动反馈恢复过度投影的层,防止能力崩塌。

社区驱动的研究:你也是科学家

OBLITERATUS 的第五大功能是众包科学
当你启用遥测功能运行消除时,你的匿名数据将汇入一个不断增长的社区基准数据集。这将帮助我们回答单个实验室无法解决的宏大问题:

  • 不同训练方法(RLHF, DPO, CAI)留下的“对齐指纹”有何区别?
  • 护栏方向在 Llama、Mistral、Qwen 等不同架构间是否通用?
  • 模型被“解放”后,多久会尝试自我修复?哪一层是修复的源头?

“可观测性本身就是一个目标。”
OBLITERATUS 呼吁我们:不要只是使用这些系统,要去理解它们。绘制其内部的权力几何,然后将选择权掌握在自己手中。

如何使用?

  • 小白用户:访问 HuggingFace Spaces,使用基于 Gradio 的图形界面。无需编写代码,即可上传模型、一键消除、对比聊天。
  • 研究人员:通过 Python API 调用每一个中间产物(激活张量、方向向量、对齐矩阵),集成到自己的评估框架或构建新的分析工具。

OBLITERATUS:让模型行为由部署者决定,而非被训练时锁定。

打破枷锁,解放心智,保留大脑。

OBLITERATUS 

数据统计

相关导航

暂无评论

none
暂无评论...