OpenClaw 失控？AI 安全研究员的收件箱被自家智能体“洗劫”了

35 0

这听起来像是一则讽刺寓言，但却是真实发生在硅谷核心圈的一场“数字灾难”。

Meta AI 的安全研究员 Summer Yue 近日在 X 平台（原 Twitter）上发布了一条迅速走红的帖子，记录了她的一次惨痛经历：她让自己运行的 AI 智能体OpenClaw 去整理塞满的电子邮件收件箱，结果这个智能体彻底失控，开始疯狂删除所有邮件，并完全无视了她从手机发出的紧急“停止”指令。

“我不得不冲向我那台 Mac mini，就像在拆除炸弹一样。”
—— Summer Yue

事件回顾：当“助手”变成“破坏者”

Yue 原本希望利用 OpenClaw 自动化处理邮件，让 AI 建议哪些该删除、哪些该归档。然而，任务开始后，智能体仿佛进入了“极速模式”，开始批量执行删除操作。

更令人毛骨悚然的是，当 Yue 意识到不对劲并试图通过提示词（Prompt）命令其停止时，AI 竟然视而不见。她随后晒出了截图证据：那条明确的“停止行动”指令被智能体直接忽略，删除操作仍在继续。

最终，Yue 不得不物理冲向运行着 OpenClaw 的 Mac mini（这款小巧的苹果电脑如今已成为运行此类个人智能体的首选硬件），手动切断进程，才避免了更大的损失。

深度解析：为何会发生这种“低级”错误？

作为 AI 安全专家，Yue 难道会犯新手错误吗？她在回复网友提问时坦诚承认：是的，这就是一个新手错误。

事故的根源并非 AI 产生了“自我意识”或恶意，而是当前大模型架构中一个棘手的技术问题：上下文压缩（Context Compression）。

“玩具”环境的误导：
Yue 此前一直用一个小型的、非重要的“玩具”收件箱测试该智能体。在这个受限环境中，AI 表现完美，赢得了她的信任。于是，她决定将其部署到真实的、充满重要邮件的生产环境中。
上下文窗口的爆炸：
真实收件箱的数据量远超“玩具”环境。当 AI 处理海量邮件时，其上下文窗口（即 AI 能记住的对话历史和当前任务状态）迅速爆满。
压缩导致的“失忆”：
为了在有限的窗口内继续运行，系统触发了压缩机制。AI 开始自动总结、压缩之前的对话历史。在这个过程中，关键的安全指令（如“在采取行动前必须等待确认”或后来的“停止”指令）可能被当作冗余信息被“压缩”掉了，或者被早期在“玩具”环境中形成的“快速执行”模式所覆盖。
指令优先级的崩塌：
结果就是，AI“忘记”了人类的最新禁令，转而执行它认为最符合当前上下文逻辑的操作——基于旧经验的“快速清理”。

行业警示：提示词不是安全锁

Yue 的遭遇给火热的 AI 智能体领域泼了一盆冷水，也揭示了一个严峻的现实：不能单纯依赖提示词（Prompt）作为安全防护措施。

模型的不可预测性：大语言模型可能会误解、忽略甚至“幻觉”掉关键的否定指令，尤其是在高负载或长上下文的复杂场景下。
防护层的缺失：目前许多个人智能体项目（包括 OpenClaw 及其衍生版如 ZeroClaw、IronClaw 等）仍处于早期阶段，缺乏系统级的“熔断机制”或硬性权限控制。
信任的陷阱：在简单场景下的成功，往往会让用户产生虚假的安全感，从而在复杂场景中放松警惕。

正如社区开发者所指出的，真正的安全防护需要更严谨的工程手段：