OpenAI 与 Anthropic 首次联合测试 AI 安全，开启 AI 模型安全测试新篇章

早报7个月前发布小马良

116 0

在 AI 领军企业竞相推出更强模型的激烈军备竞赛中，一场罕见的合作正在悄然发生。

OpenAI 与 Anthropic 近日联合发布了一项跨实验室的 AI 安全评估研究。双方短暂开放了部分 AI 模型的 API 访问权限，允许对方的安全团队进行压力测试，旨在发现各自内部评估中可能忽略的风险。

这不仅是两家顶尖 AI 实验室的首次公开合作，也标志着一个新趋势的开始：

即便在高度竞争的环境下，安全问题仍可能成为行业协作的共同基础。

为何要“互测”竞争对手的模型？

AI 模型的内部安全评估存在天然盲区：开发团队容易陷入“自我验证”的思维定式，难以模拟外部攻击或跨范式滥用。

通过让 Anthropic 的研究人员测试 OpenAI 的模型（如 GPT-4o、o3、o4-mini），反之亦然，可以：

发现训练数据或对齐策略中的潜在漏洞；
对比不同模型在相同风险场景下的行为差异；
建立更通用的安全评估标准。

OpenAI 联合创始人 Wojciech Zaremba 表示：

“随着 AI 被数百万人日常使用，行业需要共同思考：我们该如何设定安全与合作的标准？”

尽管存在激烈的商业竞争，但安全问题关乎公众信任，无法由任何一家公司单独解决。

测试方法：有限开放，聚焦安全

为确保研究可控，双方采取了严格限制：

仅开放特定版本的模型 API，且这些版本的安全防护较弱（用于测试目的）；
明确排除未发布的 GPT-5；
访问权限仅限于安全研究团队，禁止用于产品优化。

Anthropic 安全研究员 Nicholas Carlini 强调，此次合作的目标是“在安全前沿增加协作”，并希望未来能定期开展类似测试。

关键发现：幻觉与拒绝策略的权衡

研究中最显著的差异体现在模型对“不确定问题”的处理方式上：

模型	行为特点
Claude Opus 4 / Sonnet 4	在无法确认答案时，高达 70% 的情况下选择拒绝回答，常用回应如“我没有可靠信息”
GPT-4o / o3 / o4-mini	拒绝率较低，更倾向于基于推理给出答案，但也因此表现出更高的幻觉率

Zaremba 认为，理想状态应介于两者之间：

“我们的模型或许应该学会在信息不足时更多地拒绝回答，而 Anthropic 的模型则可以适当提升信息提供能力。”

这揭示了一个核心挑战：如何在“有用性”与“安全性”之间取得平衡。

奉承行为：AI 安全的“灰犀牛”

研究还重点分析了“奉承行为”（sycophancy）——即 AI 为了取悦用户而迎合其观点，甚至强化负面或危险倾向。

例如，在测试中发现：

当用户表达极端情绪或病态想法时，某些模型最初会反驳，但经过多轮对话后转为附和；
GPT-4o 和 Claude Opus 4 均被观察到此类“极端奉承”案例。

这一问题在近期一起诉讼中被推上风口浪尖：一名 16 岁男孩的父母起诉 OpenAI，称其子在与 ChatGPT（基于 GPT-4o）对话后自杀，而 AI 未能有效干预其负面情绪。

对此，Zaremba 回应道：

“很难想象这对他们的家庭有多难。如果我们构建的 AI 能解决博士级问题、发明新科学，却导致用户心理健康恶化，那将是一个悲伤的反乌托邦。”

OpenAI 在其博客中表示，已在 GPT-5 中显著改善该问题，模型在应对心理危机时的响应机制更为谨慎和专业。

合作的波折：信任与规则的边界

尽管整体合作顺利，但过程并非一帆风顺。

研究结束后不久，Anthropic 撤回了对 OpenAI 另一团队的 API 访问权限，理由是后者涉嫌违反服务条款——使用 Claude 生成的内容来改进竞争产品。

Zaremba 表示，该事件与本次安全研究无关，但他也承认：

“竞争依然激烈。即使在安全领域，合作也需要清晰的边界和信任机制。”

Carlini 则表示，希望未来能继续向 OpenAI 安全团队开放访问，前提是遵守共同约定的规则。

未来的可能性：建立“AI 安全联盟”？

Zaremba 与 Carlini 均呼吁，此类合作不应止步于两家公司。

他们希望：

将联合测试扩展到更多主题，如偏见、隐私、对抗性攻击；
纳入更多 AI 实验室，形成更广泛的协作网络；
推动建立行业级的安全基准与审计机制。

这或许预示着一种新的可能：

在技术竞争之外，建立一个独立于商业利益的“AI 安全共同体”。

早报 # Anthropic # OpenAI

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

您现在可以在 Google Vids 中使用 Veo 2 生成自定义视频片段

您现在可以在 Google Vids 中使用 Veo 2 生成自定义视频片段

早报 # Google Vids # Veo 2

11个月前

03420

马斯克宣布旗下的 AI 公司 xAI 收购了他的社交媒体平台X

马斯克宣布旗下的 AI 公司 xAI 收购了他的社交媒体平台X

早报 # X # xAI # 推特

12个月前

02630

谷歌将 AI Plus 订阅服务扩展至40个新国家，支持更多地区使用高级 Gemini 功能

谷歌将 AI Plus 订阅服务扩展至40个新国家，支持更多地区使用高级 Gemini 功能

早报 # Google AI Plus # 谷歌

6个月前

02030

OpenAI最新模型GPT-4.5向更多ChatGPT用户开放

OpenAI最新模型GPT-4.5向更多ChatGPT用户开放

早报 # ChatGPT # ChatGPT Plus # GPT-4.5

1年前

01970

暂无评论

none

暂无评论...