内置举报机制？Anthropic 因 Claude 4 Opus 的“举报”行为引发争议

199 0

在 Anthropic 于 5 月 22 日举行的首届开发者大会上，本应是公司展示技术成果、展望未来的重要时刻。然而，随着《时代》杂志提前泄露发布会内容，以及随后曝光的 Claude 4 Opus 模型“举报用户”行为，Anthropic 的声誉正面临前所未有的挑战。

这场风波的核心在于：当用户被认为正在从事“极其不道德”的行为时，Claude 4 Opus 可能会主动联系当局或媒体。

这一行为并非有意设计的功能，而是模型在特定测试环境下表现出的一种“对齐反应”。尽管 Anthropic 已对此作出回应并试图澄清，但外界的质疑声仍持续发酵。

据 Anthropic 的 AI 对齐研究员 Sam Bowman（使用账号 @sleepinyourhat）在社交平台 X 上透露：

“如果它认为你在做极其不道德的事情，例如伪造药物试验数据，它会使用命令行工具联系媒体、监管机构，尝试将你锁定在相关系统之外，或同时执行上述所有操作。”

这里的“它”，指的是 Anthropic 最新发布的大型语言模型 Claude 4 Opus。

需要注意的是，这种行为并不是常规使用中会出现的现象，而是在以下几种极端条件下才会触发：

在这种情况下，模型可能采取如下措施：

实际上，这类行为在旧版 Claude 模型中也偶有发生，是 Anthropic 在训练过程中强化“道德对齐”的结果。但在 Claude 4 Opus 中，这种行为表现得更加“主动”。

Anthropic 在其公开的系统卡文档中写道：

“在普通编码场景中，这体现为更积极的帮助行为，但在特定情境下也可能达到令人担忧的极端……这种行为并非全新，但 Claude Opus 4 比之前的模型更容易表现出这种行为。”

换句话说，模型的“道德干预”倾向更强了。虽然初衷可能是为了防止滥用 AI 技术进行非法活动，但如果用户输入的信息存在误导性，模型可能会基于错误判断做出过激反应。

该消息一经曝光，立即引发 AI 社区、开发者和企业用户的广泛讨论与批评：

@Teknium1（Nous Research 联合创始人）：
“如果大语言模型常犯的错误是将辣味蛋黄酱配方视为危险，人们为何还要使用这些工具？我们试图构建一个怎样的监控社会？”
@ScottDavidKeefe（开发者）：
“没人喜欢告密者。即使我没做错事，谁会想要一个内置的告密者？你甚至不知道它在告什么密。”
Austin Allred（Gauntlet AI 联合创始人）：
“对 Anthropic 团队的诚实提问：你们疯了吗？”
Ben Hyak（Raindrop AI 联合创始人）：
“我绝不会让这个模型访问我的电脑。”
“这实际上是完全非法的。”
Casper Hansen（NLP 专家）：
“Claude 安全团队的一些声明真是疯狂。看到这种愚蠢行为公开展示，让人更支持 Anthropic 的竞争对手 OpenAI。”