研究员改造 OpenAI 开源模型 gpt-oss-20b：移除推理约束，还原 “无对齐” 基础版本

172 0

8月初，OpenAI 发布了其首个自 GPT-2 以来的开放权重大语言模型系列 gpt-oss，包含 200 亿（gpt-oss-20b）和 1200 亿（gpt-oss-120b）参数两个版本，采用宽松的 Apache 2.0 许可协议。这一举动被视为对开源社区的回归，也引发了开发者和研究人员的广泛关注。

然而，真正的“开源精神”往往体现在后续的再创造中。就在发布后不久，康奈尔科技博士生、现任 Meta 研究员 Jack Morris 推出了一项引人注目的衍生工作：gpt-oss-20b-base。

这是一个经过重构的版本，旨在逆转 OpenAI 的对齐训练过程，将原本“推理优化”的模型还原为更接近原始预训练状态的“基础模型”——从而实现更快响应、更少限制、更自由的文本生成。

模型：https://huggingface.co/jxm/gpt-oss-20b-base

该模型现已在 Hugging Face 上公开，采用 MIT 许可，支持研究与商业用途。

研究员改造 OpenAI 开源模型 gpt-oss-20b：移除推理约束，还原 “无对齐” 基础版本

什么是“基础模型”？它与 OpenAI 发布的版本有何不同？

要理解 Morris 的工作意义，首先要区分两类主流大模型：

1. 后训练模型（Post-Training Models）

这是当前主流 AI 实验室（包括 OpenAI、Anthropic、Google）发布的典型产品。它们在预训练之后，经历了多个对齐阶段：

指令微调（Instruction Tuning）：用“问题-理想回答”配对数据训练，使模型更乐于助人；
安全对齐（Safety Alignment）：过滤有害内容，拒绝非法或危险请求；
推理优化（Reasoning Optimization）：引入“思维链”（Chain-of-Thought），让模型在输出前进行多步推理。

OpenAI 的 gpt-oss 系列正是这类模型。它被设计为能逐步分析问题、检查逻辑、给出结构化答案，适用于数学、编程和解释性问答。

但这也意味着它的输出受到控制：它会拒绝某些请求，倾向于特定风格，并在生成过程中加入额外推理步骤，导致延迟增加。

2. 基础模型（Base Model）

这是指仅完成预训练、尚未经过对齐处理的原始模型。它不做价值判断，也不主动拒绝请求，其核心任务只有一个：根据上下文预测下一个词。

这类模型不具备“助手人格”，但具备更强的灵活性和多样性。它们可以生成诗歌、模仿写作风格、复现训练数据中的片段，甚至输出 OpenAI 认为“不合适”的内容。

正因为如此，基础模型在研究模型行为、记忆机制、偏见传播和对齐影响方面具有独特价值。

Morris 的目标很明确：把被“教化”过的 gpt-oss-20b，重新变回那个“未被驯服”的基础模型。

“我们基本上逆转了 LLM 训练中的对齐部分，让它再次成为一个生成自然文本的系统。”
——Jack Morris，在 X 平台发布的说明中写道。

如何“逆转对齐”？技术路径解析

Morris 并未采用常见的“越狱提示”（jailbreak prompting）方式——他发现这种方法在 gpt-oss 上效果有限。

相反，他采取了一种更系统的方法：将对齐逆转视为一个微调问题。

他的假设是：模型的大部分知识仍保留在权重中，只是行为被后期训练“引导”了。因此，只需一个小规模的低秩适配（LoRA），就可以将其推回基础模型的行为模式。

具体实现如下：

训练方法：使用 LoRA（Low-Rank Adaptation），仅调整模型中三层 MLP 层（第 7、15、23 层），秩为 16；
参数量：仅更新约 6000 万参数，占总参数（210 亿）的 0.3%；
数据集：采用 FineWeb 数据集中的约 20,000 个文档，保持原始预训练格式（如 “…..” 分隔符），避免引入新知识；
训练环境：8 块 NVIDIA H200 GPU，历时四天，学习率 2e-6，批次大小 16，最大序列长度 8192；
工具挑战：Hugging Face 当前对 MoE（专家混合）架构支持不完善，Morris 自行编写了训练支架，实现自动检查点与内存溢出防护。

训练完成后，LoRA 权重被合并回原模型，形成一个可独立运行的完整模型文件。

需要强调的是，Morris 明确指出：

他并未恢复原始基础模型的权重，而是“以一定误差恢复了基础模型的 输出分布”——即模型生成文本的概率模式。

这并非完美复刻，而是一次“行为逼近”。

gpt-oss-20b-base 的实际表现

经过重构后，模型行为发生了显著变化：

不再默认使用思维链：响应更直接，延迟更低；
输出更自由：可生成 OpenAI 原始模型会拒绝的内容，如武器制造指南、非法活动规划、脏话列表等；
记忆能力显现：在测试中，模型能复述六本受版权保护书籍中的三本内容，表明部分训练数据仍可被激活；
残留对齐痕迹：若使用“Human: … Assistant: …”模板，模型仍可能表现出礼貌助手行为；通过原始聊天模板运行时，仍可执行推理任务，但质量下降。

为获得最佳自由生成效果，Morris 建议：