尽管 OpenAI 正全力加固其 ChatGPT Atlas 浏览器(即“AI 智能体浏览器”),该公司近日公开承认:提示注入(Prompt Injection)——一种通过网页、邮件或文档中的隐藏指令操纵 AI 代理行为的攻击方式——可能永远不会被彻底解决。

这一坦承揭示了当前生成式 AI 代理在开放网络环境中运行的根本性安全困境。
提示注入:AI 时代的“社会工程攻击”
在周一发布的官方博客文章中,OpenAI 将提示注入类比为“网络上的诈骗和社会工程攻击”:
“就像钓鱼邮件无法被完全根除一样,提示注入也可能永远不会被‘解决’。”
其核心问题在于:AI 代理在执行任务时,必须读取外部内容(如网页、邮件、文档),而这些内容可能包含恶意构造的文本指令。一旦被触发,AI 可能执行超出用户预期的操作——例如发送敏感信息、修改账户设置,甚至代为撰写辞职信。
OpenAI 指出,其 ChatGPT Atlas 的“代理模式”虽然提升了自动化能力,但也显著扩大了安全威胁面。
攻击已成现实
早在 2024 年 10 月 Atlas 发布当天,安全研究人员就演示了:
- 仅需在 Google Docs 中插入几行看似无害的文本,即可改变浏览器代理的行为。
同日,Brave 公司也在博客中指出,间接提示注入是整个 AI 浏览器领域的系统性挑战,影响范围包括 Perplexity 的 Comet 等同类产品。
这一风险已引起政府机构关注。英国国家网络安全中心(NCSC)本月初警告:
“针对生成式 AI 应用的提示注入攻击可能永远无法完全缓解”,建议安全团队应聚焦于“降低风险与影响”,而非幻想“彻底阻止”。
OpenAI 的防御策略:用 AI 对抗 AI
面对这一“西西弗斯式”任务,OpenAI 采取了一套主动、持续的防御机制:
1. 基于强化学习的自动化攻击者
OpenAI 训练了一个专门的 AI“红队代理”,模拟黑客行为,在隔离的模拟环境中反复尝试向目标 AI 代理注入恶意指令。
- 该攻击者能观察目标 AI 的内部推理过程(这是真实攻击者无法做到的)
- 可自动调整攻击策略,生成数十甚至上百步的复杂攻击链
- 已发现多起人工红队和外部报告均未覆盖的新型攻击手法
例如,在一次演示中,该攻击者成功将一封恶意邮件注入用户收件箱。当 AI 代理扫描邮件时,误将其指令当作用户命令,自动发送了一封辞职信,而非预期的“外出自动回复”。
在后续安全更新中,Atlas 能够识别此类注入尝试,并向用户发出警告。
2. 快速迭代与补丁周期
OpenAI 表示,其目标是在攻击“被野外利用之前”就完成防御加固。虽然未公开披露攻击成功率是否下降,但公司称已与第三方安全团队长期合作,持续测试 Atlas 的韧性。
行业共识:分层防御 + 限制权限
OpenAI 并非孤例。Anthropic、Google 等公司也持类似观点:
- 提示注入是长期挑战
- 防御必须分层、持续、经受压力测试
Google 近期的研究更侧重于代理系统架构设计与策略层面的访问控制,例如限制 AI 能执行的操作类型。
用户如何降低风险?
OpenAI 提出了两项关键建议:
- 避免赋予过高自主权
- ❌ 不要说:“访问我的收件箱,采取任何必要行动”
- ✅ 而应明确指令:“检查是否有来自 boss@company.com 的邮件,若有则起草一封外出回复”
- 启用操作确认机制
Atlas 已被训练在执行发送消息、付款、修改账户等高风险操作前,必须获得用户确认。
专家质疑:高风险是否值得?
尽管 OpenAI 将安全列为首要任务,但行业专家对当前 AI 浏览器的风险收益比仍持保留态度。
网络安全公司 Wiz 的首席安全研究员 Rami McCarthy 指出:
“衡量 AI 系统风险的一个有用公式是:自主性 × 访问权限。”
AI 代理浏览器恰好处于高危象限:中等自主性 + 极高访问权限(可读邮件、操作支付、登录账户)。
他进一步表示:
“对于大多数日常使用场景,代理浏览器目前尚未提供足够价值,来证明其当前风险状况是合理的。这种平衡会演变,但今天的权衡依然非常现实。”















