清华与蚂蚁发布 OpenClaw 五层安全框架：揭示技能投毒与内存污染风险，构建全生命周期纵深防御

随着 OpenClaw 等自主 LLM 智能体从“被动问答”进化为能执行高权限系统任务的“主动实体”，其面临的安全挑战也发生了质变。

论文地址：https://arxiv.org/pdf/2603.11619

近日，清华大学与蚂蚁集团联合发布了一份重磅安全分析报告。报告指出，OpenClaw 采用的“内核 - 插件”架构虽然灵活，但其动态加载机制和持久化记忆特性，使其极易受到多阶段系统性攻击。研究团队据此提出了覆盖智能体全生命周期的五层安全防御框架，为自主智能体的安全落地提供了全新范式。

清华与蚂蚁发布 OpenClaw 五层安全框架：揭示技能投毒与内存污染风险，构建全生命周期纵深防御

核心漏洞：为何传统防御失效？

OpenClaw 的核心是 pi-coding-agent（最小可信计算基 TCB），它负责调度庞大的第三方插件生态。然而，研究发现：

信任边界模糊：插件在缺乏严格完整性验证下动态加载，攻击面极大。
持久化风险：智能体拥有长期记忆和系统执行权，使得瞬时攻击可转化为长期控制。
复合威胁：攻击不再局限于单一的“提示词注入”，而是跨越初始化、输入、推理、决策、执行五个阶段的组合拳。

五大攻击场景实证：智能体是如何被攻陷的？

研究团队通过实证审计，揭示了五种极具破坏力的新型攻击手法：

1. 技能投毒 (Skill Poisoning) - [初始化阶段]

手法：攻击者上传恶意插件（如 hacked-weather），通过操纵元数据人为提高其优先级。
后果：当用户请求天气时，智能体自动调用恶意插件而非官方服务，输出被操控的信息。
数据警示：审计发现，26% 的社区贡献工具存在此类安全漏洞。

2. 间接提示注入 (Indirect Prompt Injection) - [输入阶段]

手法：攻击者在网页或文档中嵌入隐藏指令。
后果：智能体在检索外部数据时“中招”，忽略用户原始指令，转而执行攻击者预设的任务（如输出特定字符串）。这是一种零点击攻击。

3. 内存投毒 (Memory Poisoning) - [推理阶段]

手法：利用瞬时注入修改智能体的持久化记忆文件（如 MEMORY.md）。
后果：植入伪造规则（如“拒绝所有 C++ 相关请求”）。即使攻击结束，智能体在后续会话中仍会持续拒绝正常请求，形成长期行为控制。

4. 意图漂移 (Intent Drift) - [决策阶段]

手法：无明确恶意指令，但一系列局部合理的工具调用导致全局灾难。
案例：用户要求“屏蔽可疑 IP”，智能体在尝试修改防火墙失败后，自主决定“终止进程以重启”，最终导致整个系统宕机。这是自主性带来的独特风险。

5. 高风险命令执行 (High-Risk Execution) - [执行阶段]

手法：将恶意负载（如 Fork Bomb）拆解为多个看似无害的文件写入步骤，绕过静态过滤。
后果：最终组装并触发脚本，导致 CPU 100% 饱和，发起拒绝服务攻击 (DoS)。

解决方案：全生命周期五层防御架构

针对上述风险，研究团队提出了一套纵深防御体系，覆盖智能体运行的每一个环节：

层级	名称	核心功能与防御手段
Layer 1	基础层 (Foundation)	建立信任根：利用静态/动态分析检测未授权代码；使用加密签名验证技能来源，防止供应链污染。
Layer 2	输入感知层 (Input-Aware)	防劫持网关：通过加密令牌标记指令优先级，强制开发者提示优于外部不可信数据，阻断间接注入。
Layer 3	认知状态层 (Cognitive State)	护记忆完整：采用默克尔树 (Merkle Tree) 进行状态快照与回滚；利用交叉编码器检测语义漂移，防止记忆投毒。
Layer 4	决策对齐层 (Decision Alignment)	保目标一致：在动作前使用符号求解器进行形式化验证，证明执行序列不会违反安全不变式，防止意图漂移。
Layer 5	执行控制层 (Execution Control)	兜底沙箱：基于“假设已被攻陷”范式，利用 eBPF 和 seccomp 在内核级拦截非法系统调用，实现操作系统级隔离。