你是否曾希望:
- 能像搜索文件一样,语义搜索你的微信聊天记录?
- 在本地直接查找过去半年所有邮件中的关键观点?
- 让ChatGPT和Claude的对话历史,成为你可检索的个人知识库?
- 所有这些,都不依赖云端,不上传数据,不被服务条款约束?
LEANN 实现了这一点。
它是一个在本地设备上运行的向量数据库,专为个人数据设计。无需上传,无需云服务,不依赖OpenAI或任何第三方。你的所有数据——文档、邮件、聊天、浏览器历史、代码库——都只留在你的电脑里。

它如何做到用6GB索引6000万文本块?
传统向量数据库会为每个文本块生成并存储一个嵌入向量。6000万条数据,意味着你需要约200GB的存储空间。
LEANN 改变了这一逻辑。
它不存储所有嵌入,而是通过基于图的选择性重计算和高阶保留剪枝技术,按需动态生成嵌入。简单说:它只在你搜索时,才计算你需要的那部分向量,而不是提前存下全部。
配合紧凑的图结构(CSR格式)和高效剪枝算法,LEANN 将存储需求降低97% ——从201GB → 6GB,搜索质量无损。
支持哪些数据源?
LEANN 可索引并语义搜索:
- 本地文件:PDF、TXT、MD、DOCX
- 通讯记录:微信、iMessage、Apple Mail、Gmail
- AI对话历史:ChatGPT、Claude(通过导出JSON)
- 浏览器历史:Chrome、Edge 的访问记录
- 实时数据:通过MCP(模型上下文协议)接入Slack、Twitter等(需配置代理)
- 代码库:Git仓库中的注释、文档、提交信息
- 外部知识库:可加载6000万+条公开或私有文本(如维基、论文、内部文档)
注:Claude Code 目前仅支持 grep 风格关键字搜索。LEANN 作为 MCP 服务,无缝兼容其接口,无需改动你的编辑器设置,即可升级为语义搜索。
为什么它适合你?
- 🔒 隐私优先
数据从不离开你的设备。没有API密钥,没有云日志,没有隐私条款。 - 🪶 极轻量
占用内存和磁盘远低于传统方案。在老旧笔记本或树莓派上也能流畅运行。 - 📦 可迁移
整个知识库是一个6GB的文件夹。复制到新电脑,或通过USB传给同事,立即可用。 - 📈 适应你的数据增长
你的微信聊天、邮件、笔记每天都在增加。LEANN 不需要你定期清理或压缩,它能持续高效处理。 - ✨ 没有精度妥协
在多个公开基准测试中,LEANN 的召回率和准确率与 FAISS、Qdrant 等主流系统持平,只是更省空间。
如何开始?
- 下载 LEANN(开源,GitHub 可获取)
- 配置数据源路径(如微信聊天导出目录、邮件文件夹)
- 启动服务,等待索引完成(通常数小时,取决于数据量)
- 通过 CLI、Web UI 或 MCP 接口开始语义搜索
支持 Windows、macOS、Linux。
不依赖 Docker,不强制使用特定框架。你只需要一个能运行 Python 的环境。
适用场景
- 研究者:快速回溯过去阅读的论文与笔记
- 开发者:从多年代码注释中找回遗忘的实现逻辑
- 写作者:从聊天和邮件中提取灵感与上下文
- 任何人:不想让AI平台知道你说了什么、看了什么