在近日的一次公开通报中,谷歌安全副总裁 希瑟·阿德金斯(Heather Adkins) 宣布,其基于大语言模型(LLM)的自动化漏洞研究工具 Big Sleep,已在多个流行开源项目中自主发现并报告了 20 个安全漏洞。

这是 Big Sleep 首次对外披露实际成果,标志着 AI 驱动的安全研究正从理论走向实践。
AI 自主发现漏洞:不是辅助,是主角
与以往将 AI 作为辅助分析工具不同,Big Sleep 的核心特点是:漏洞的发现与复现完全由 AI 代理自主完成,无需人工介入。
该项目由谷歌两大顶尖团队联合打造:
- DeepMind:提供大模型核心技术与推理能力;
- Project Zero:贡献顶级漏洞挖掘经验与安全知识体系。
尽管最终报告在提交前经过了人工专家审核以确保质量与可操作性,但谷歌强调,每个漏洞的初始发现、代码分析和复现路径均由 AI 独立完成。
谷歌工程副总裁 罗亚尔·汉森(Royal Hansen) 在社交媒体 X 上表示,这些成果代表了“自动化漏洞发现的新前沿”。
发现集中在关键基础设施组件
目前披露的信息显示,这批漏洞主要集中在广泛使用的开源多媒体处理库中,包括:
- FFmpeg:全球最主流的音视频编解码与处理工具库,被数以万计的应用依赖;
- ImageMagick:功能强大的图像编辑与转换套件,常见于 Web 和服务器端图像处理流程。
由于谷歌遵循负责任披露政策,所有漏洞仍在等待修复,因此尚未公开具体细节(如 CVE 编号、CVSS 评分或利用方式)。但可以确定的是,这类基础库一旦存在高危漏洞,可能影响范围极广。
技术路径:LLM 如何“黑”进代码?
Big Sleep 的工作流程体现了当前 AI 安全研究的典型范式:
- 代码理解:利用大模型对目标项目的 C/C++ 代码进行深度语义解析;
- 漏洞模式识别:结合已知漏洞模式(如缓冲区溢出、空指针解引用、整数溢出等)进行静态扫描;
- 动态验证:生成 PoC(概念验证)输入,模拟触发异常行为,确认漏洞可复现;
- 报告生成:输出结构化报告,包含漏洞位置、成因分析与复现步骤。
这一过程不再依赖传统 fuzzing 或符号执行的纯程序化方法,而是通过模型的“推理能力”推测潜在缺陷,更接近人类研究员的思维方式。
同类工具正在崛起
Big Sleep 并非孤例。近年来,多个 AI 驱动的漏洞发现系统相继涌现:
- RunSybil:由前 Google 和 Meta 工程师创立,专注于自动化漏洞挖掘,在 HackerOne 平台上表现活跃。
- XBOW:另一款基于 LLM 的安全代理,在 HackerOne 的美国漏洞赏金排行榜上名列前茅。
这些工具的共同特点是:使用大模型作为“智能引擎”,在海量代码中快速定位可疑片段,并自动生成测试用例。
RunSybil 联合创始人兼 CTO 弗拉德·约内斯库(Vlad Ionescu) 评价 Big Sleep 是一个“靠谱”的项目:“设计出色,团队背景强大——Project Zero 懂漏洞,DeepMind 拥有技术资源,这是成功的关键。”
潜力巨大,但“AI 垃圾”问题不容忽视
尽管前景乐观,AI 自动生成的漏洞报告也带来了新挑战。
多位开源项目维护者反映,他们近期收到了大量由 AI 提交的“伪漏洞”报告——这些报告看似专业,实则基于模型幻觉(hallucination),提出的“漏洞”并不存在,或早已被修复。
这种现象被一些人称为 “人工智能垃圾”(AI spam),不仅浪费维护者时间,也可能削弱真正重要报告的可信度。
此外,当前 AI 工具仍难以处理复杂上下文依赖、多函数跨层调用等深层次问题,误报率和漏报率依然较高。
AI 不会取代黑客,但会改变游戏规则
Big Sleep 的首次实战成果表明,AI 已不再是安全研究的旁观者。
它尚不能完全替代经验丰富的安全研究员,但在以下方面已展现出显著优势:
- 快速扫描大规模代码库;
- 发现低垂果实类漏洞(low-hanging fruit);
- 持续运行,7×24 小时不间断分析。
未来,最有效的模式可能是 “AI 发现 + 人类验证” 的协同机制:AI 负责初筛与提效,人类专家聚焦深度分析与高级攻击链构建。
正如谷歌所展示的路径:AI 是放大器,而不是替代品。















