OCRFlux

5个月前发布 857 00

OCRFlux 是一个基于多模态大语言模型的工具包,可以将 PDF 和图像转换为干净、可读的纯 Markdown 文本,显著提升当前技术水平。

所在地:
美国
收录时间:
2025-06-26
其他站点:

OCRFlux 是一款基于 多模态大语言模型(VLM) 的工具包,专为将 PDF 文档和图像转换为结构清晰、可读性强的 Markdown 文本 而设计。它在处理复杂文档布局、跨页内容及高质量表格解析方面表现出色,显著优于现有开源和商业 OCR 工具。

✨ 主要功能

整文件解析

  • 单页处理
    • 支持多列布局、图表、插图,并按自然阅读顺序输出
    • 自动识别并保留复杂表格、公式等结构
    • 智能去除页眉、页脚干扰
    • 支持跨段落/表格片段合并
  • 跨页处理
    • 表格跨页自动检测与合并(支持重复表头、单元格跨行等)
    • 段落跨页拼接,避免内容断裂

🔍 核心优势

卓越的单页解析质量

OCRFlux-bench-single 基准测试中表现优异:

语言模型名称EDS 提升幅度
英文olmOCR-7B → OCRFlux-3B+0.086
中文olmOCR-7B → OCRFlux-3B+0.103
总体olmOCR-7B → OCRFlux-3B+0.095

在 OCRFlux-pubtabnet-single 基准测试中的 HTML 表格生成效果:

表格类型olmOCR-7B 成绩OCRFlux-3B 成绩TEDS 提升幅度
简单0.8100.912+0.102
复杂0.6760.807+0.131
总体0.7440.861+0.117

EDS(编辑距离相似度)和 TEDS(树编辑距离相似度)越高,表示与真值越接近,质量越好。

原生支持跨页表格与段落合并

OCRFlux 是首个全面支持 跨页内容自动检测与合并 的开源 OCR 工具,适用于金融报告、学术论文等长文档场景。

合并任务说明:

  • 检测任务:识别需要合并的跨页元素索引(如表格或段落)
  • 合并任务
    • 段落:直接拼接
    • 表格:智能处理表头重复、跨行单元格、垂直分割等复杂情况

OCRFlux-bench-cross 基准测试结果(跨页检测性能):

指标英文样本中文样本综合得分
Accuracy0.9780.9940.986
F1 Score0.9780.9940.986

OCRFlux-pubtabnet-cross 基准测试结果(跨页表格合并):

表格类型TEDS 得分
简单0.965
复杂0.935
总体0.950

高效轻量级模型

  • 模型规模:仅使用 3B 参数 的多模态视觉语言模型(VLM)
  • 运行要求:可在 RTX 3090 或同等显卡 上流畅运行
  • 推理速度:比传统 7B 模型快 3 倍以上,兼顾精度与效率

📦 发布内容

  • OCRFlux-3B:主模型,适用于大多数 PDF 和图像解析任务
  • 基准测试集
    • OCRFlux-bench-single:单页解析质量评估(含英文/中文各 1000 页)
    • OCRFlux-pubtabnet-single:HTML 表格生成评估
    • OCRFlux-bench-cross:跨页元素检测评估
    • OCRFlux-pubtabnet-cross:跨页表格合并评估

所有测试数据均未用于训练,确保评估公平性。

🧪 安装与运行要求

硬件需求

  • GPU:英伟达显卡(推荐 RTX 3090 / 4090 / L40S / A100 / H100)
  • 显存:至少 12GB GPU 内存
  • 磁盘空间:约 20GB 可用空间

软件依赖

  • poppler-utils:用于 PDF 图像提取
  • 额外字体库:确保中英文渲染正常

📊 性能对比总结

单页解析对比(EDS)

模型英文 EDS中文 EDS平均 EDS
olmOCR-7B-0225-preview0.8850.8590.872
Nanonets-OCR-s0.8700.8460.858
MonkeyOCR0.8280.7310.780
OCRFlux-3B(本项目)0.9710.9620.967

单页表格解析对比(TEDS)

模型简单表格复杂表格平均 TEDS
olmOCR-7B-0225-preview0.8100.6760.744
Nanonets-OCR-s0.8820.7720.828
MonkeyOCR0.8800.8260.853
OCRFlux-3B(本项目)0.9120.8070.861

📁 使用场景建议

OCRFlux 特别适合以下应用场景:

  • 金融领域:财报、投资分析报告、合同文本
  • 学术研究:论文、技术文档、研究报告
  • 法律文书:合同、判决书、法规条文
  • 出版物处理:书籍扫描、杂志排版、多栏 PDF 转换

🛠️ 技术亮点

  • 多模态架构:结合视觉理解与语言建模能力,实现精准的文档结构还原
  • 跨页智能检测:通过序列建模判断是否需要合并,再利用对齐策略完成无缝拼接
  • 表格重建优化:基于 HTML 结构化输出,支持 rowspan、colspan 等复杂表格格式
  • 高效推理引擎:3B 规模模型在消费级 GPU 上即可运行,兼顾性能与部署成本

📚 深入了解

我们还提供了多个实际案例研究,展示 OCRFlux 在真实世界文档中的强大解析能力,包括:

  • 学术论文中的复杂公式与图表提取
  • 企业年报中的跨页财务报表
  • 多语言混合文档的准确识别与排版还原

这些案例充分展示了 OCRFlux 在多种文档结构下的卓越适应性和稳定性。

数据统计

相关导航

暂无评论

none
暂无评论...