AI-Paperless

1周前发布 27 00

AI-Paperless是基于卓越的开源文档管理系统 paperless-ngx 深度二次开发,创新性地融合了 大语言模型(LLM) 与 视觉模型(VLM) 等先进 AI 能力。目标是打造一个功能更强大、交互更智能、管理更高效的智能文档知识库,让您的文档真正实现深度理解与高效利用。

所在地:
中国
收录时间:
2025-12-09
AI-PaperlessAI-Paperless

AI-Paperless 是基于优秀开源项目 paperless-ngx 深度二次开发的智能文档管理系统。它在保留原版强大自动化能力的基础上,原生集成大语言模型(LLM),让文档不再只是“被存储”,而是“被理解”、“能对话”、“可推理”。

AI-Paperless

口号:融合 AI 的下一代 Paperless-ngx,让您的文档真正“会说话”和“易管理”。

为什么需要 AI-Paperless?

原版 Paperless-ngx 已能高效完成文档 OCR、标签分类和全文检索。但在实际使用中,用户常面临以下痛点:

  • 面对上千份杂乱扫描件,难以建立清晰的分类逻辑
  • 关键信息(如合同金额、发票日期)需人工翻找
  • 手机拍摄的低质量图片 OCR 错误率高
  • 想通过自然语言提问(如“上个月所有未付款的发票”)却无法实现

AI-Paperless 正是为解决这些问题而生。

AI-Paperless

✅ 已上线核心 AI 功能

1. 树形目录结构(高优先级 · 已完成)

  • 支持无限级文件夹嵌套
  • 兼容原有标签/通信方/文档类型体系
  • 可视化拖拽管理,告别扁平化混乱

2. AI 文档对话(中优先级 · 已完成)

  • 选中任意文档,直接提问:

    “这份合同的甲方是谁?”
    “发票总金额是多少?”
    “总结会议纪要的三个行动项”

  • 基于 LLM 上下文理解,精准提取结构化信息

3. VLM 增强 OCR(中优先级 · 已完成)

  • 对低质量、倾斜、阴影遮挡的图片文档,使用视觉语言模型(VLM)进行语义辅助识别
  • 显著提升手机拍摄发票、手写笔记等场景的数字化准确率

4. AI 提示词管理(中优先级 · 已完成)

  • 提供图形界面配置 LLM/VLM 的系统提示词用户提示模板
  • 支持按文档类型动态切换提示策略(如合同 vs 发票)

📋 规划中的高价值功能

模块描述优先级
智能语义检索基于向量嵌入,实现“意思相近”搜索(如搜“付款”也能命中“打款”)
混合检索引擎融合关键词 + 语义 + 元数据(日期/通信方/标签)的多维过滤
多媒体扩展支持音频/视频上传,自动语音转写、生成摘要
全局 AI 助手右下角常驻入口,支持跨文档问答、多文件对比、批量摘要
可视化仪表盘实时展示文档总量、分类分布、处理队列、存储趋势
知识库与最佳实践内置场景化指南(如“如何管理家庭账单”、“企业合同归档规范”)

🛠️ 保留 paperless-ngx 全部优势

  • 本地私有部署:数据 100% 留在本地,支持细粒度权限与带过期时间的公共链接
  • 多格式支持:PDF、图片、Office、纯文本等,自动转 PDF/A 长期存档
  • 自动化工作流:邮件自动导入、规则触发(如“发票 → 自动打标签+提取金额”)
  • 高性能处理:多核并行 OCR、队列监控、完整性校验
  • 现代化 UI:拖拽上传、并排编辑、自定义视图与字段

⚡ 快速部署(Docker Compose)

# 进入编排目录
cd ./docker/compose

# 启动完整服务栈(含 MariaDB、Redis、Tika、Gotenberg)
docker compose -f docker-compose.mariadb-tika.yml up -d

首次访问:http://<你的服务器IP>:8008

  • 首次登录需注册管理员账户
  • 系统自动创建 ./consume(拖入自动处理)、./export(导出目录)
  • 所有数据持久化于 ./data 和 ./media

提示:如需最新镜像,启动前执行
docker compose -f docker-compose.mariadb-tika.yml pull

适用场景

  • 个人知识管理:将扫描笔记、发票、证书转化为可搜索、可问答的知识库
  • 小微企业办公:自动化归档合同、报价单、会议记录,降低行政成本
  • 开发者/技术用户:基于开源代码二次定制,集成私有 LLM/VLM 模型
  • 家庭数字档案:集中管理账单、保单、证件,支持语音或文字快速查询

数据统计

相关导航

暂无评论

none
暂无评论...