OpenAI 承认：AI 浏览器永远难逃提示注入攻击

31 0

尽管 OpenAI 正全力加固其 ChatGPT Atlas 浏览器（即“AI 智能体浏览器”），该公司近日公开承认：提示注入（Prompt Injection）——一种通过网页、邮件或文档中的隐藏指令操纵 AI 代理行为的攻击方式——可能永远不会被彻底解决。

这一坦承揭示了当前生成式 AI 代理在开放网络环境中运行的根本性安全困境。

在周一发布的官方博客文章中，OpenAI 将提示注入类比为“网络上的诈骗和社会工程攻击”：

“就像钓鱼邮件无法被完全根除一样，提示注入也可能永远不会被‘解决’。”

其核心问题在于：AI 代理在执行任务时，必须读取外部内容（如网页、邮件、文档），而这些内容可能包含恶意构造的文本指令。一旦被触发，AI 可能执行超出用户预期的操作——例如发送敏感信息、修改账户设置，甚至代为撰写辞职信。

OpenAI 指出，其 ChatGPT Atlas 的“代理模式”虽然提升了自动化能力，但也显著扩大了安全威胁面。

早在 2024 年 10 月 Atlas 发布当天，安全研究人员就演示了：

同日，Brave 公司也在博客中指出，间接提示注入是整个 AI 浏览器领域的系统性挑战，影响范围包括 Perplexity 的 Comet 等同类产品。

这一风险已引起政府机构关注。英国国家网络安全中心（NCSC）本月初警告：

“针对生成式 AI 应用的提示注入攻击可能永远无法完全缓解”，建议安全团队应聚焦于“降低风险与影响”，而非幻想“彻底阻止”。

面对这一“西西弗斯式”任务，OpenAI 采取了一套主动、持续的防御机制：

OpenAI 训练了一个专门的 AI“红队代理”，模拟黑客行为，在隔离的模拟环境中反复尝试向目标 AI 代理注入恶意指令。

例如，在一次演示中，该攻击者成功将一封恶意邮件注入用户收件箱。当 AI 代理扫描邮件时，误将其指令当作用户命令，自动发送了一封辞职信，而非预期的“外出自动回复”。

在后续安全更新中，Atlas 能够识别此类注入尝试，并向用户发出警告。

OpenAI 表示，其目标是在攻击“被野外利用之前”就完成防御加固。虽然未公开披露攻击成功率是否下降，但公司称已与第三方安全团队长期合作，持续测试 Atlas 的韧性。

OpenAI 并非孤例。Anthropic、Google 等公司也持类似观点：

Google 近期的研究更侧重于代理系统架构设计与策略层面的访问控制，例如限制 AI 能执行的操作类型。

OpenAI 提出了两项关键建议：

避免赋予过高自主权
- ❌ 不要说：“访问我的收件箱，采取任何必要行动”
- ✅ 而应明确指令：“检查是否有来自 boss@company.com 的邮件，若有则起草一封外出回复”
启用操作确认机制
Atlas 已被训练在执行发送消息、付款、修改账户等高风险操作前，必须获得用户确认。