研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

大语言模型3个月前发布 小马良
127 0

8月初,OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss,包含 200 亿(gpt-oss-20b)和 1200 亿(gpt-oss-120b)参数两个版本,采用宽松的 Apache 2.0 许可协议。这一举动被视为对开源社区的回归,也引发了开发者和研究人员的广泛关注。

然而,真正的“开源精神”往往体现在后续的再创造中。就在发布后不久,康奈尔科技博士生、现任 Meta 研究员 Jack Morris 推出了一项引人注目的衍生工作:gpt-oss-20b-base

这是一个经过重构的版本,旨在逆转 OpenAI 的对齐训练过程,将原本“推理优化”的模型还原为更接近原始预训练状态的“基础模型”——从而实现更快响应、更少限制、更自由的文本生成。

该模型现已在 Hugging Face 上公开,采用 MIT 许可,支持研究与商业用途。

研究员改造 OpenAI 开源模型 gpt-oss-20b:移除推理约束,还原 “无对齐” 基础版本

什么是“基础模型”?它与 OpenAI 发布的版本有何不同?

要理解 Morris 的工作意义,首先要区分两类主流大模型:

1. 后训练模型(Post-Training Models)

这是当前主流 AI 实验室(包括 OpenAI、Anthropic、Google)发布的典型产品。它们在预训练之后,经历了多个对齐阶段:

  • 指令微调(Instruction Tuning):用“问题-理想回答”配对数据训练,使模型更乐于助人;
  • 安全对齐(Safety Alignment):过滤有害内容,拒绝非法或危险请求;
  • 推理优化(Reasoning Optimization):引入“思维链”(Chain-of-Thought),让模型在输出前进行多步推理。

OpenAI 的 gpt-oss 系列正是这类模型。它被设计为能逐步分析问题、检查逻辑、给出结构化答案,适用于数学、编程和解释性问答。

但这也意味着它的输出受到控制:它会拒绝某些请求,倾向于特定风格,并在生成过程中加入额外推理步骤,导致延迟增加。

2. 基础模型(Base Model)

这是指仅完成预训练、尚未经过对齐处理的原始模型。它不做价值判断,也不主动拒绝请求,其核心任务只有一个:根据上下文预测下一个词

这类模型不具备“助手人格”,但具备更强的灵活性和多样性。它们可以生成诗歌、模仿写作风格、复现训练数据中的片段,甚至输出 OpenAI 认为“不合适”的内容。

正因为如此,基础模型在研究模型行为、记忆机制、偏见传播和对齐影响方面具有独特价值。

Morris 的目标很明确:把被“教化”过的 gpt-oss-20b,重新变回那个“未被驯服”的基础模型

“我们基本上逆转了 LLM 训练中的对齐部分,让它再次成为一个生成自然文本的系统。”
——Jack Morris,在 X 平台发布的说明中写道。

如何“逆转对齐”?技术路径解析

Morris 并未采用常见的“越狱提示”(jailbreak prompting)方式——他发现这种方法在 gpt-oss 上效果有限。

相反,他采取了一种更系统的方法:将对齐逆转视为一个微调问题

他的假设是:模型的大部分知识仍保留在权重中,只是行为被后期训练“引导”了。因此,只需一个小规模的低秩适配(LoRA),就可以将其推回基础模型的行为模式。

具体实现如下:

  • 训练方法:使用 LoRA(Low-Rank Adaptation),仅调整模型中三层 MLP 层(第 7、15、23 层),秩为 16;
  • 参数量:仅更新约 6000 万参数,占总参数(210 亿)的 0.3%;
  • 数据集:采用 FineWeb 数据集中的约 20,000 个文档,保持原始预训练格式(如 “…..” 分隔符),避免引入新知识;
  • 训练环境:8 块 NVIDIA H200 GPU,历时四天,学习率 2e-6,批次大小 16,最大序列长度 8192;
  • 工具挑战:Hugging Face 当前对 MoE(专家混合)架构支持不完善,Morris 自行编写了训练支架,实现自动检查点与内存溢出防护。

训练完成后,LoRA 权重被合并回原模型,形成一个可独立运行的完整模型文件。

需要强调的是,Morris 明确指出:

他并未恢复原始基础模型的权重,而是“以一定误差恢复了基础模型的 输出分布”——即模型生成文本的概率模式。

这并非完美复刻,而是一次“行为逼近”。

gpt-oss-20b-base 的实际表现

经过重构后,模型行为发生了显著变化:

  • 不再默认使用思维链:响应更直接,延迟更低;
  • 输出更自由:可生成 OpenAI 原始模型会拒绝的内容,如武器制造指南、非法活动规划、脏话列表等;
  • 记忆能力显现:在测试中,模型能复述六本受版权保护书籍中的三本内容,表明部分训练数据仍可被激活;
  • 残留对齐痕迹:若使用“Human: … Assistant: …”模板,模型仍可能表现出礼貌助手行为;通过原始聊天模板运行时,仍可执行推理任务,但质量下降。

为获得最佳自由生成效果,Morris 建议:

  • 在输入前添加特殊起始令牌 <|startoftext|>
  • 避免使用任何聊天模板或结构化格式。

为什么这个项目值得关注?

gpt-oss 的发布本身已引发广泛讨论。支持者赞赏其宽松许可与高效推理能力;批评者则指出其可能过度依赖合成数据,在创意写作与多语言任务上表现一般,并存在潜在偏见。

而 Morris 的工作,则提供了一个开放模型如何被社区快速重塑的典型案例

它展示了:

  • 开源模型的可塑性:即使经过严格对齐,仍可通过微调恢复其原始行为;
  • 研究价值:为探索模型记忆、对齐机制、知识提取提供了新工具;
  • 安全警示:去对齐后的模型风险显著上升,需谨慎部署。

正如一位计算机科学家在 X 上评价:“这是我过去几个月看到的最酷的东西。”

Morris 表示,这项工作还将继续,未来计划在其他开源模型(如通义千问 Qwen 的非推理版本)上验证类似方法。

© 版权声明

相关文章

暂无评论

none
暂无评论...