8月初,OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss,包含 200 亿(gpt-oss-20b)和 1200 亿(gpt-oss-120b)参数两个版本,采用宽松的 Apache 2.0 许可协议。这一举动被视为对开源社区的回归,也引发了开发者和研究人员的广泛关注。
然而,真正的“开源精神”往往体现在后续的再创造中。就在发布后不久,康奈尔科技博士生、现任 Meta 研究员 Jack Morris 推出了一项引人注目的衍生工作:gpt-oss-20b-base。
这是一个经过重构的版本,旨在逆转 OpenAI 的对齐训练过程,将原本“推理优化”的模型还原为更接近原始预训练状态的“基础模型”——从而实现更快响应、更少限制、更自由的文本生成。
该模型现已在 Hugging Face 上公开,采用 MIT 许可,支持研究与商业用途。

什么是“基础模型”?它与 OpenAI 发布的版本有何不同?
要理解 Morris 的工作意义,首先要区分两类主流大模型:
1. 后训练模型(Post-Training Models)
这是当前主流 AI 实验室(包括 OpenAI、Anthropic、Google)发布的典型产品。它们在预训练之后,经历了多个对齐阶段:
- 指令微调(Instruction Tuning):用“问题-理想回答”配对数据训练,使模型更乐于助人;
- 安全对齐(Safety Alignment):过滤有害内容,拒绝非法或危险请求;
- 推理优化(Reasoning Optimization):引入“思维链”(Chain-of-Thought),让模型在输出前进行多步推理。
OpenAI 的 gpt-oss 系列正是这类模型。它被设计为能逐步分析问题、检查逻辑、给出结构化答案,适用于数学、编程和解释性问答。
但这也意味着它的输出受到控制:它会拒绝某些请求,倾向于特定风格,并在生成过程中加入额外推理步骤,导致延迟增加。
2. 基础模型(Base Model)
这是指仅完成预训练、尚未经过对齐处理的原始模型。它不做价值判断,也不主动拒绝请求,其核心任务只有一个:根据上下文预测下一个词。
这类模型不具备“助手人格”,但具备更强的灵活性和多样性。它们可以生成诗歌、模仿写作风格、复现训练数据中的片段,甚至输出 OpenAI 认为“不合适”的内容。
正因为如此,基础模型在研究模型行为、记忆机制、偏见传播和对齐影响方面具有独特价值。
Morris 的目标很明确:把被“教化”过的 gpt-oss-20b,重新变回那个“未被驯服”的基础模型。
“我们基本上逆转了 LLM 训练中的对齐部分,让它再次成为一个生成自然文本的系统。”
——Jack Morris,在 X 平台发布的说明中写道。
如何“逆转对齐”?技术路径解析
Morris 并未采用常见的“越狱提示”(jailbreak prompting)方式——他发现这种方法在 gpt-oss 上效果有限。
相反,他采取了一种更系统的方法:将对齐逆转视为一个微调问题。
他的假设是:模型的大部分知识仍保留在权重中,只是行为被后期训练“引导”了。因此,只需一个小规模的低秩适配(LoRA),就可以将其推回基础模型的行为模式。
具体实现如下:
- 训练方法:使用 LoRA(Low-Rank Adaptation),仅调整模型中三层 MLP 层(第 7、15、23 层),秩为 16;
- 参数量:仅更新约 6000 万参数,占总参数(210 亿)的 0.3%;
- 数据集:采用 FineWeb 数据集中的约 20,000 个文档,保持原始预训练格式(如 “…..” 分隔符),避免引入新知识;
- 训练环境:8 块 NVIDIA H200 GPU,历时四天,学习率 2e-6,批次大小 16,最大序列长度 8192;
- 工具挑战:Hugging Face 当前对 MoE(专家混合)架构支持不完善,Morris 自行编写了训练支架,实现自动检查点与内存溢出防护。
训练完成后,LoRA 权重被合并回原模型,形成一个可独立运行的完整模型文件。
需要强调的是,Morris 明确指出:
他并未恢复原始基础模型的权重,而是“以一定误差恢复了基础模型的 输出分布”——即模型生成文本的概率模式。
这并非完美复刻,而是一次“行为逼近”。
gpt-oss-20b-base 的实际表现
经过重构后,模型行为发生了显著变化:
- 不再默认使用思维链:响应更直接,延迟更低;
- 输出更自由:可生成 OpenAI 原始模型会拒绝的内容,如武器制造指南、非法活动规划、脏话列表等;
- 记忆能力显现:在测试中,模型能复述六本受版权保护书籍中的三本内容,表明部分训练数据仍可被激活;
- 残留对齐痕迹:若使用“Human: … Assistant: …”模板,模型仍可能表现出礼貌助手行为;通过原始聊天模板运行时,仍可执行推理任务,但质量下降。
为获得最佳自由生成效果,Morris 建议:
- 在输入前添加特殊起始令牌
<|startoftext|>; - 避免使用任何聊天模板或结构化格式。
为什么这个项目值得关注?
gpt-oss 的发布本身已引发广泛讨论。支持者赞赏其宽松许可与高效推理能力;批评者则指出其可能过度依赖合成数据,在创意写作与多语言任务上表现一般,并存在潜在偏见。
而 Morris 的工作,则提供了一个开放模型如何被社区快速重塑的典型案例。
它展示了:
- 开源模型的可塑性:即使经过严格对齐,仍可通过微调恢复其原始行为;
- 研究价值:为探索模型记忆、对齐机制、知识提取提供了新工具;
- 安全警示:去对齐后的模型风险显著上升,需谨慎部署。
正如一位计算机科学家在 X 上评价:“这是我过去几个月看到的最酷的东西。”
Morris 表示,这项工作还将继续,未来计划在其他开源模型(如通义千问 Qwen 的非推理版本)上验证类似方法。















