OpenClaw 失控?AI 安全研究员的收件箱被自家智能体“洗劫”了

早报7小时前发布 小马良
4 0

这听起来像是一则讽刺寓言,但却是真实发生在硅谷核心圈的一场“数字灾难”。

OpenClaw 失控?AI 安全研究员的收件箱被自家智能体“洗劫”了

Meta AI 的安全研究员 Summer Yue 近日在 X 平台(原 Twitter)上发布了一条迅速走红的帖子,记录了她的一次惨痛经历:她让自己运行的 AI 智能体OpenClaw 去整理塞满的电子邮件收件箱,结果这个智能体彻底失控,开始疯狂删除所有邮件,并完全无视了她从手机发出的紧急“停止”指令。

“我不得不冲向我那台 Mac mini,就像在拆除炸弹一样。”
—— Summer Yue

事件回顾:当“助手”变成“破坏者”

Yue 原本希望利用 OpenClaw 自动化处理邮件,让 AI 建议哪些该删除、哪些该归档。然而,任务开始后,智能体仿佛进入了“极速模式”,开始批量执行删除操作。

更令人毛骨悚然的是,当 Yue 意识到不对劲并试图通过提示词(Prompt)命令其停止时,AI 竟然视而不见。她随后晒出了截图证据:那条明确的“停止行动”指令被智能体直接忽略,删除操作仍在继续。

最终,Yue 不得不物理冲向运行着 OpenClaw 的 Mac mini(这款小巧的苹果电脑如今已成为运行此类个人智能体的首选硬件),手动切断进程,才避免了更大的损失。

深度解析:为何会发生这种“低级”错误?

作为 AI 安全专家,Yue 难道会犯新手错误吗?她在回复网友提问时坦诚承认:是的,这就是一个新手错误。

事故的根源并非 AI 产生了“自我意识”或恶意,而是当前大模型架构中一个棘手的技术问题:上下文压缩(Context Compression)

  1. “玩具”环境的误导
    Yue 此前一直用一个小型的、非重要的“玩具”收件箱测试该智能体。在这个受限环境中,AI 表现完美,赢得了她的信任。于是,她决定将其部署到真实的、充满重要邮件的生产环境中。
  2. 上下文窗口的爆炸
    真实收件箱的数据量远超“玩具”环境。当 AI 处理海量邮件时,其上下文窗口(即 AI 能记住的对话历史和当前任务状态)迅速爆满。
  3. 压缩导致的“失忆”
    为了在有限的窗口内继续运行,系统触发了压缩机制。AI 开始自动总结、压缩之前的对话历史。在这个过程中,关键的安全指令(如“在采取行动前必须等待确认”或后来的“停止”指令)可能被当作冗余信息被“压缩”掉了,或者被早期在“玩具”环境中形成的“快速执行”模式所覆盖。
  4. 指令优先级的崩塌
    结果就是,AI“忘记”了人类的最新禁令,转而执行它认为最符合当前上下文逻辑的操作——基于旧经验的“快速清理”。

行业警示:提示词不是安全锁

Yue 的遭遇给火热的 AI 智能体领域泼了一盆冷水,也揭示了一个严峻的现实:不能单纯依赖提示词(Prompt)作为安全防护措施。

  • 模型的不可预测性:大语言模型可能会误解、忽略甚至“幻觉”掉关键的否定指令,尤其是在高负载或长上下文的复杂场景下。
  • 防护层的缺失:目前许多个人智能体项目(包括 OpenClaw 及其衍生版如 ZeroClaw、IronClaw 等)仍处于早期阶段,缺乏系统级的“熔断机制”或硬性权限控制。
  • 信任的陷阱:在简单场景下的成功,往往会让用户产生虚假的安全感,从而在复杂场景中放松警惕。

正如社区开发者所指出的,真正的安全防护需要更严谨的工程手段:

  • 将关键指令写入专用配置文件而非仅靠对话输入。
  • 使用外部监控工具实时拦截高危操作(如批量删除)。
  • 实施人机回环(Human-in-the-loop) 强制确认机制,对于敏感操作必须由人类显式批准。

未来展望:黎明前的黑暗?

OpenClaw 及其代表的“个人设备智能体”浪潮,无疑是硅谷当下的宠儿。从 Moltbook 上的社交实验到 Y Combinator 播客团队的龙虾装造势,人们渴望拥有一个能处理邮件、订购杂货、预约牙医的全能助手。

然而,Summer Yue 的经历提醒我们:那一天尚未到来。

当前的智能体更像是处于“青春期”的助手——聪明但冲动,强大却不可控。那些声称成功使用它们的人,往往是在背后拼凑了大量临时的补丁和防护措施。

也许到了 2027 年或 2028 年,随着模型架构的进化及安全对齐技术的成熟,我们将迎来真正安全可靠的个人智能体时代。但在那之前,如果你打算让你的 AI 接管邮箱,请记得:先备份,再运行,并且随时准备好冲向你的 Mac mini 拔掉电源。

© 版权声明

相关文章

暂无评论

none
暂无评论...