
在 AI 智能体(Agent)的开发与应用中,随着对话轮数增加、记忆文件累积和子代理上下文的膨胀,Token 消耗往往呈指数级增长。这不仅导致 API 成本飙升,更因上下文窗口限制而迫使开发者频繁截断信息,造成关键事实丢失。
有没有一种方法,既能大幅压缩上下文体积,又能完整保留事实与逻辑,且不依赖昂贵的 LLM 进行压缩?

Claw Compactor 是一款专为 AI 智能体设计的开源 Token 压缩工具,它通过5 层确定性压缩技术,能将你的整个工作空间(内存文件、会话记录、子代理上下文)压缩高达 98%,让 Token 开支直接减半。
它的核心理念很简单:减少令牌,保留事实。 (Reduce Tokens. Keep Facts.)
核心优势:零 LLM 成本的确定性压缩
与市面上依赖大模型进行“摘要式压缩”的工具不同,Claw Compactor 坚持零 LLM 成本原则。
- 完全基于规则:所有压缩步骤均通过确定性算法执行,无随机性,结果可复现。
- 无损往返:支持字典编码、游程编码(RLE)等技术,确保关键信息可逆或语义等价。
- 极速处理:无需等待 LLM 生成,秒级完成大规模工作空间的压缩。
- 多语言支持:完美支持 CJK(中文/日文/韩文),无乱码风险。
技术揭秘:5 层压缩架构
Claw Compactor 的威力源自其精心设计的 5 层压缩流水线,层层递进,榨干每一字节的冗余。
| 层级 | 技术名称 | 核心机制 | 典型节省 |
|---|---|---|---|
| Layer 1 | 规则引擎 | 去除重复行、清理 Markdown 填充符、合并冗余章节 | 4-8% |
| Layer 2 | 字典编码 | 自动学习高频词组生成码本,用 $XX 短码替换长文本 | 4-5% |
| Layer 3 | 观察压缩 | 将会话 JSONL 日志转化为结构化观察摘要(核心杀手锏) | ~97% |
| Layer 4 | RLE 模式 | 路径缩写 ($WS)、IP 前缀压缩、枚举值优化 | 1-2% |
| Layer 5 | 分层上下文协议 | 生成 L0/L1/L2 分级摘要,支持渐进式加载 | 20-60%* |
注:Layer 3 和 Layer 5 虽涉及有损压缩(移除冗长格式),但严格保留所有事实决策与*关键逻辑,确保智能体行为不受影响。*
🌟 杀手锏:观察压缩 (Observation Compression)
这是节省率最高的环节。它将原本冗长的、机器生成的 JSONL 会话日志,智能提取为简洁的自然语言观察报告。
- 输入:几兆字节的各种工具调用、参数、返回值的原始日志。
- 输出:几百字节的“智能体观察到 X,执行了 Y,结果是 Z”的结构化摘要。
- 效果:在几乎不损失上下文理解能力的前提下,实现 97% 的体积缩减。
实战效果:省下的都是真金白银
根据实际测试数据,Claw Compactor 在不同场景下表现卓越:
| 场景 | 典型节省率 | 说明 |
|---|---|---|
| 会话记录压缩 | ~97% | 将 MB 级的 JSONL 日志压缩为 KB 级的观察摘要 |
| 新建/冗长工作空间 | 50-70% | 首次运行于未优化的杂乱工作空间,效果惊人 |
| 定期维护 | 10-20% | 在活跃工作空间上每周运行,持续控制体积 |
| 已优化工作空间 | 3-12% | 收益递减,但仍能挤出额外水分 |
综合来看,一次 full 命令即可让你的整体 Token 消耗降低 50% 以上。
快速上手:一条命令搞定
Claw Compactor 使用极其简单,仅需 Python 环境即可运行。
安装
git clone https://github.com/aeromomo/claw-compactor.git
cd claw-compactor
# 可选:安装 tiktoken 以获得精确的 Token 计数
pip install tiktoken
使用指南
1. 预演评估(非破坏性)
先看看能省多少,心里有底:
python3 scripts/mem_compress.py /path/to/your/workspace benchmark
2. 一键全量压缩
执行所有 5 层压缩流程:
python3 scripts/mem_compress.py /path/to/your/workspace full
3. 更多灵活命令
observe: 仅压缩会话记录(节省最大)。tiers: 生成 L0/L1/L2 分层摘要,优化子代理加载速度。dedup: 跨文件检测并合并重复内容。estimate: 生成详细的 Token 计数报告。--dry-run: 预览更改而不实际写入文件,安全无忧。
适用场景
- 长程任务智能体:需要维持数小时甚至数天上下文记忆的 Agent。
- 多代理协作系统:子代理之间传递大量上下文,导致 Token 爆炸的场景。
- 成本敏感型应用:希望在不牺牲智能的前提下,最大限度降低 API 账单的开发者。
- 本地模型用户:受限于本地显存和上下文窗口,需要极致压缩以运行更大任务的用户。
数据统计
相关导航


FalkorDB

InfiniMind

Magnitude

Hunter AI 内容工厂

DataFlow

KoalaQA






