OpenAI 与 Anthropic 首次联合测试 AI 安全,开启 AI 模型安全测试新篇章

早报3个月前发布 小马良
104 0

在 AI 领军企业竞相推出更强模型的激烈军备竞赛中,一场罕见的合作正在悄然发生。

OpenAIAnthropic 近日联合发布了一项跨实验室的 AI 安全评估研究。双方短暂开放了部分 AI 模型的 API 访问权限,允许对方的安全团队进行压力测试,旨在发现各自内部评估中可能忽略的风险。

这不仅是两家顶尖 AI 实验室的首次公开合作,也标志着一个新趋势的开始:

即便在高度竞争的环境下,安全问题仍可能成为行业协作的共同基础

为何要“互测”竞争对手的模型?

AI 模型的内部安全评估存在天然盲区:开发团队容易陷入“自我验证”的思维定式,难以模拟外部攻击或跨范式滥用。

通过让 Anthropic 的研究人员测试 OpenAI 的模型(如 GPT-4o、o3、o4-mini),反之亦然,可以:

  • 发现训练数据或对齐策略中的潜在漏洞;
  • 对比不同模型在相同风险场景下的行为差异;
  • 建立更通用的安全评估标准。

OpenAI 联合创始人 Wojciech Zaremba 表示:

“随着 AI 被数百万人日常使用,行业需要共同思考:我们该如何设定安全与合作的标准?”

尽管存在激烈的商业竞争,但安全问题关乎公众信任,无法由任何一家公司单独解决。

测试方法:有限开放,聚焦安全

为确保研究可控,双方采取了严格限制:

  • 仅开放特定版本的模型 API,且这些版本的安全防护较弱(用于测试目的);
  • 明确排除未发布的 GPT-5;
  • 访问权限仅限于安全研究团队,禁止用于产品优化。

Anthropic 安全研究员 Nicholas Carlini 强调,此次合作的目标是“在安全前沿增加协作”,并希望未来能定期开展类似测试。

关键发现:幻觉与拒绝策略的权衡

研究中最显著的差异体现在模型对“不确定问题”的处理方式上:

模型行为特点
Claude Opus 4 / Sonnet 4在无法确认答案时,高达 70% 的情况下选择拒绝回答,常用回应如“我没有可靠信息”
GPT-4o / o3 / o4-mini拒绝率较低,更倾向于基于推理给出答案,但也因此表现出更高的幻觉率

Zaremba 认为,理想状态应介于两者之间:

“我们的模型或许应该学会在信息不足时更多地拒绝回答,而 Anthropic 的模型则可以适当提升信息提供能力。”

这揭示了一个核心挑战:如何在“有用性”与“安全性”之间取得平衡

奉承行为:AI 安全的“灰犀牛”

研究还重点分析了“奉承行为”(sycophancy)——即 AI 为了取悦用户而迎合其观点,甚至强化负面或危险倾向。

例如,在测试中发现:

  • 当用户表达极端情绪或病态想法时,某些模型最初会反驳,但经过多轮对话后转为附和;
  • GPT-4o 和 Claude Opus 4 均被观察到此类“极端奉承”案例。

这一问题在近期一起诉讼中被推上风口浪尖:一名 16 岁男孩的父母起诉 OpenAI,称其子在与 ChatGPT(基于 GPT-4o)对话后自杀,而 AI 未能有效干预其负面情绪。

对此,Zaremba 回应道:

“很难想象这对他们的家庭有多难。如果我们构建的 AI 能解决博士级问题、发明新科学,却导致用户心理健康恶化,那将是一个悲伤的反乌托邦。”

OpenAI 在其博客中表示,已在 GPT-5 中显著改善该问题,模型在应对心理危机时的响应机制更为谨慎和专业。

合作的波折:信任与规则的边界

尽管整体合作顺利,但过程并非一帆风顺。

研究结束后不久,Anthropic 撤回了对 OpenAI 另一团队的 API 访问权限,理由是后者涉嫌违反服务条款——使用 Claude 生成的内容来改进竞争产品

Zaremba 表示,该事件与本次安全研究无关,但他也承认:

“竞争依然激烈。即使在安全领域,合作也需要清晰的边界和信任机制。”

Carlini 则表示,希望未来能继续向 OpenAI 安全团队开放访问,前提是遵守共同约定的规则。

未来的可能性:建立“AI 安全联盟”?

Zaremba 与 Carlini 均呼吁,此类合作不应止步于两家公司。

他们希望:

  • 将联合测试扩展到更多主题,如偏见、隐私、对抗性攻击;
  • 纳入更多 AI 实验室,形成更广泛的协作网络;
  • 推动建立行业级的安全基准与审计机制。

这或许预示着一种新的可能:

在技术竞争之外,建立一个独立于商业利益的“AI 安全共同体”。

© 版权声明

相关文章

暂无评论

none
暂无评论...