docext 是一款无需 OCR 的智能文档处理工具,利用视觉语言模型(VLMs)从发票、护照等图像文档中提取结构化信息。无论是关键字段提取、表格数据解析,还是多页文档处理,docext 都能在本地部署环境中高效完成任务。它不仅支持自定义字段和模板,还提供置信度评分和 REST API 集成,是企业和个人处理非结构化文档的理想选择。

核心功能
1. 智能文档处理
- 关键信息提取(KIE)
从非结构化文档中提取结构化字段,例如发票中的金额、日期或护照中的姓名、国籍。 - 表格提取
从复杂表格中提取结构化数据,支持多页文档中的表格内容。 - 视觉问答(VQA)
通过问答形式验证对文档内容的理解,确保提取信息的准确性。 - 长文档处理
支持冗长文档的上下文推理,适用于合同、报告等复杂文档。
2. 灵活的字段定义
- 用户可以自定义需要提取的字段,也可以使用预构建模板(如发票、护照)快速启动。
- 支持动态添加或删除字段/列,满足个性化需求。
3. 置信度评分
- 提供提取信息的置信度水平,帮助用户评估结果的可靠性。
4. 多页文档支持
5. 本地化部署
- 完全运行在本地基础设施上,确保数据隐私和安全性(支持 Linux 和 MacOS)。
6. REST API 集成
技术亮点
1. 基于视觉语言模型(VLMs)
- docext 利用先进的视觉语言模型,直接从文档图像中提取信息,无需依赖传统的 OCR 技术。
- 这种方法显著提升了字段提取和表格解析的准确性和效率。
2. 智能文档处理排行榜
- docext 提供了一个智能文档处理排行榜,用于评估不同模型在以下任务中的性能:
- OCR:印刷体和手写文本的识别准确性。
- KIE:从非结构化文本中提取结构化字段的能力。
- 文档分类:对不同类型文档的分类准确性。
- 表格提取:从复杂表格格式中提取结构化数据的能力。
- 置信度评分校准:预测结果的可靠性和置信度。
3. 预构建模板
- 内置常见文档类型的模板(如发票、护照),开箱即用,大幅降低配置成本。
使用场景
1. 企业自动化
- 自动化处理发票、收据、合同等文档,减少人工干预,提高工作效率。
2. 数据录入与分析
- 从复杂表格中提取结构化数据,为数据分析和决策提供支持。
3. 出入境管理
- 快速提取护照、签证等证件的关键信息,简化出入境流程。
4. 长文档处理
- 解析研究报告、法律文件等长文档,提取重要信息以供进一步分析。
如何开始?
1. 安装与部署
- 下载并安装 docext 工具包,确保您的系统环境满足要求(Linux 或 MacOS)。
- 配置本地环境,确保所有依赖项已正确安装。
2. 配置模板
- 使用内置模板(如发票、护照)快速启动。
- 根据需求自定义字段或创建新的模板。
3. 提取数据
- 将文档图像输入系统,docext 会自动提取所需信息。
- 查看提取结果及置信度评分,确保数据准确性。
4. 集成到应用
- 使用 REST API 将 docext 集成到现有系统中,实现自动化文档处理。
未来展望
尽管 docext 已经具备强大的文档处理能力,但仍有改进空间:
- 更多文档类型支持:扩展预构建模板,覆盖更多行业和场景(如医疗记录、银行对账单)。
- 实时处理:优化性能,支持实时文档处理需求。
- 增强多语言支持:提升对非英语文档的处理能力。
- 用户界面:开发图形化界面,降低使用门槛。