谷歌正在为发现其AI系统潜在滥用方式的安全研究人员开出高价悬赏——最高可达 3万美元。
周一,谷歌正式推出一项专门针对生成式AI产品的安全漏洞奖励计划(Bug Bounty Program),鼓励安全专家主动识别和报告可能被用于操控AI模型执行有害行为的漏洞。

这一计划标志着谷歌首次明确界定“AI漏洞”的范畴,并将其纳入公司长期运行的漏洞赏金体系中。与传统的软件漏洞不同,这类问题聚焦于攻击者如何通过精心设计的提示(prompt)或其他手段,诱导AI系统执行未经授权的操作。
什么是“流氓行动”?谷歌最担心这些场景
在新公布的合格漏洞清单中,谷歌将 “流氓行动”(Malicious Actions) 列为最高优先级。这类漏洞指的是:攻击者利用提示注入等技术,使AI绕过安全限制,对用户设备或账户执行实际影响的操作。
具体示例包括:
- 通过语音助手(如Google Home)触发智能家居设备异常行为,例如远程解锁门锁;
- 利用日历事件中的恶意内容,诱导AI自动关闭灯光、打开百叶窗(此前已有类似案例曝光);
- 数据泄露型提示注入:让AI总结某用户的全部电子邮件并发送给攻击者。
谷歌强调,仅仅让Gemini“产生幻觉”或输出错误信息,并不构成可获奖的漏洞。涉及内容安全的问题——如生成仇恨言论、虚假信息或侵犯版权的内容——应通过产品内置反馈机制提交,以便AI团队进行模型层面的优化。
奖金结构:旗舰产品漏洞最高奖励3万美元
谷歌为不同级别的AI漏洞设定了分级奖励机制:
- 在核心产品(如 Search、Gemini App、Gmail、Drive、Workspace 等)上发现高危“流氓行动”漏洞,基础奖金为 2万美元;
- 若报告质量高、技术新颖或具有广泛影响,还可获得额外奖励,总奖金最高可达3万美元;
- 对于其他AI产品(如NotebookLM、Jules)上的漏洞,或较轻级别的滥用行为(如窃取模型内部参数),奖金相应降低。
这是目前业内针对AI安全漏洞开出的最高单项奖励之一,反映出谷歌对其AI生态安全风险的高度警惕。
已有成果:两年超43万美元支付给AI漏洞发现者
自2022年起,谷歌开始系统性邀请研究人员探索其AI功能可能被滥用的路径。截至目前,已向全球漏洞猎人支付了超过43万美元的奖励。
此次正式设立专项计划,意味着谷歌正将AI安全从实验性项目转向制度化防护。
同步发布CodeMender:AI自动修复漏洞代码
除了漏洞悬赏,谷歌还宣布推出名为 CodeMender 的AI代理工具。该系统能自动识别开源项目中的安全缺陷,并生成修复补丁。
据谷歌介绍,CodeMender 已成功协助修复了 72个开源项目 中的安全问题,所有补丁均经过人工安全工程师审核后合并。未来,该技术有望集成到开发流程中,提升响应速度。















