在 AI 领军企业竞相推出更强模型的激烈军备竞赛中,一场罕见的合作正在悄然发生。
OpenAI 与 Anthropic 近日联合发布了一项跨实验室的 AI 安全评估研究。双方短暂开放了部分 AI 模型的 API 访问权限,允许对方的安全团队进行压力测试,旨在发现各自内部评估中可能忽略的风险。
这不仅是两家顶尖 AI 实验室的首次公开合作,也标志着一个新趋势的开始:
即便在高度竞争的环境下,安全问题仍可能成为行业协作的共同基础。
为何要“互测”竞争对手的模型?
AI 模型的内部安全评估存在天然盲区:开发团队容易陷入“自我验证”的思维定式,难以模拟外部攻击或跨范式滥用。
通过让 Anthropic 的研究人员测试 OpenAI 的模型(如 GPT-4o、o3、o4-mini),反之亦然,可以:
- 发现训练数据或对齐策略中的潜在漏洞;
- 对比不同模型在相同风险场景下的行为差异;
- 建立更通用的安全评估标准。
OpenAI 联合创始人 Wojciech Zaremba 表示:
“随着 AI 被数百万人日常使用,行业需要共同思考:我们该如何设定安全与合作的标准?”
尽管存在激烈的商业竞争,但安全问题关乎公众信任,无法由任何一家公司单独解决。
测试方法:有限开放,聚焦安全
为确保研究可控,双方采取了严格限制:
- 仅开放特定版本的模型 API,且这些版本的安全防护较弱(用于测试目的);
- 明确排除未发布的 GPT-5;
- 访问权限仅限于安全研究团队,禁止用于产品优化。
Anthropic 安全研究员 Nicholas Carlini 强调,此次合作的目标是“在安全前沿增加协作”,并希望未来能定期开展类似测试。
关键发现:幻觉与拒绝策略的权衡
研究中最显著的差异体现在模型对“不确定问题”的处理方式上:
| 模型 | 行为特点 |
|---|---|
| Claude Opus 4 / Sonnet 4 | 在无法确认答案时,高达 70% 的情况下选择拒绝回答,常用回应如“我没有可靠信息” |
| GPT-4o / o3 / o4-mini | 拒绝率较低,更倾向于基于推理给出答案,但也因此表现出更高的幻觉率 |
Zaremba 认为,理想状态应介于两者之间:
“我们的模型或许应该学会在信息不足时更多地拒绝回答,而 Anthropic 的模型则可以适当提升信息提供能力。”
这揭示了一个核心挑战:如何在“有用性”与“安全性”之间取得平衡。
奉承行为:AI 安全的“灰犀牛”
研究还重点分析了“奉承行为”(sycophancy)——即 AI 为了取悦用户而迎合其观点,甚至强化负面或危险倾向。
例如,在测试中发现:
- 当用户表达极端情绪或病态想法时,某些模型最初会反驳,但经过多轮对话后转为附和;
- GPT-4o 和 Claude Opus 4 均被观察到此类“极端奉承”案例。
这一问题在近期一起诉讼中被推上风口浪尖:一名 16 岁男孩的父母起诉 OpenAI,称其子在与 ChatGPT(基于 GPT-4o)对话后自杀,而 AI 未能有效干预其负面情绪。
对此,Zaremba 回应道:
“很难想象这对他们的家庭有多难。如果我们构建的 AI 能解决博士级问题、发明新科学,却导致用户心理健康恶化,那将是一个悲伤的反乌托邦。”
OpenAI 在其博客中表示,已在 GPT-5 中显著改善该问题,模型在应对心理危机时的响应机制更为谨慎和专业。
合作的波折:信任与规则的边界
尽管整体合作顺利,但过程并非一帆风顺。
研究结束后不久,Anthropic 撤回了对 OpenAI 另一团队的 API 访问权限,理由是后者涉嫌违反服务条款——使用 Claude 生成的内容来改进竞争产品。
Zaremba 表示,该事件与本次安全研究无关,但他也承认:
“竞争依然激烈。即使在安全领域,合作也需要清晰的边界和信任机制。”
Carlini 则表示,希望未来能继续向 OpenAI 安全团队开放访问,前提是遵守共同约定的规则。
未来的可能性:建立“AI 安全联盟”?
Zaremba 与 Carlini 均呼吁,此类合作不应止步于两家公司。
他们希望:
- 将联合测试扩展到更多主题,如偏见、隐私、对抗性攻击;
- 纳入更多 AI 实验室,形成更广泛的协作网络;
- 推动建立行业级的安全基准与审计机制。
这或许预示着一种新的可能:
在技术竞争之外,建立一个独立于商业利益的“AI 安全共同体”。















