OCRFlux

9个月前发布 952 00

OCRFlux 是一个基于多模态大语言模型的工具包，可以将 PDF 和图像转换为干净、可读的纯 Markdown 文本，显著提升当前技术水平。

所在地：

美国

收录时间：

2025-06-26

其他站点:

GitHub 模型

打开网站手机查看

OCRFlux

打开网站

OCRFlux 是一款基于 多模态大语言模型（VLM） 的工具包，专为将 PDF 文档和图像转换为结构清晰、可读性强的 Markdown 文本 而设计。它在处理复杂文档布局、跨页内容及高质量表格解析方面表现出色，显著优于现有开源和商业 OCR 工具。

✨ 主要功能

整文件解析

单页处理
- 支持多列布局、图表、插图，并按自然阅读顺序输出
- 自动识别并保留复杂表格、公式等结构
- 智能去除页眉、页脚干扰
- 支持跨段落/表格片段合并
跨页处理
- 表格跨页自动检测与合并（支持重复表头、单元格跨行等）
- 段落跨页拼接，避免内容断裂

🔍 核心优势

卓越的单页解析质量

在 OCRFlux-bench-single 基准测试中表现优异：

语言	模型名称	EDS 提升幅度
英文	olmOCR-7B → OCRFlux-3B	+0.086
中文	olmOCR-7B → OCRFlux-3B	+0.103
总体	olmOCR-7B → OCRFlux-3B	+0.095

在 OCRFlux-pubtabnet-single 基准测试中的 HTML 表格生成效果：

表格类型	olmOCR-7B 成绩	OCRFlux-3B 成绩	TEDS 提升幅度
简单	0.810	0.912	+0.102
复杂	0.676	0.807	+0.131
总体	0.744	0.861	+0.117

EDS（编辑距离相似度）和 TEDS（树编辑距离相似度）越高，表示与真值越接近，质量越好。

原生支持跨页表格与段落合并

OCRFlux 是首个全面支持 跨页内容自动检测与合并 的开源 OCR 工具，适用于金融报告、学术论文等长文档场景。

合并任务说明：

检测任务：识别需要合并的跨页元素索引（如表格或段落）
合并任务：
- 段落：直接拼接
- 表格：智能处理表头重复、跨行单元格、垂直分割等复杂情况

OCRFlux-bench-cross 基准测试结果（跨页检测性能）：

指标	英文样本	中文样本	综合得分
Accuracy	0.978	0.994	0.986
F1 Score	0.978	0.994	0.986

OCRFlux-pubtabnet-cross 基准测试结果（跨页表格合并）：

表格类型	TEDS 得分
简单	0.965
复杂	0.935
总体	0.950

高效轻量级模型

模型规模：仅使用 3B 参数 的多模态视觉语言模型（VLM）
运行要求：可在 RTX 3090 或同等显卡 上流畅运行
推理速度：比传统 7B 模型快 3 倍以上，兼顾精度与效率

📦 发布内容

OCRFlux-3B：主模型，适用于大多数 PDF 和图像解析任务
基准测试集：
- OCRFlux-bench-single：单页解析质量评估（含英文/中文各 1000 页）
- OCRFlux-pubtabnet-single：HTML 表格生成评估
- OCRFlux-bench-cross：跨页元素检测评估
- OCRFlux-pubtabnet-cross：跨页表格合并评估

所有测试数据均未用于训练，确保评估公平性。

🧪 安装与运行要求

硬件需求

GPU：英伟达显卡（推荐 RTX 3090 / 4090 / L40S / A100 / H100）
显存：至少 12GB GPU 内存
磁盘空间：约 20GB 可用空间

软件依赖

poppler-utils：用于 PDF 图像提取
额外字体库：确保中英文渲染正常

📊 性能对比总结

单页解析对比（EDS）

模型	英文 EDS	中文 EDS	平均 EDS
olmOCR-7B-0225-preview	0.885	0.859	0.872
Nanonets-OCR-s	0.870	0.846	0.858
MonkeyOCR	0.828	0.731	0.780
OCRFlux-3B（本项目）	0.971	0.962	0.967

单页表格解析对比（TEDS）

模型	简单表格	复杂表格	平均 TEDS
olmOCR-7B-0225-preview	0.810	0.676	0.744
Nanonets-OCR-s	0.882	0.772	0.828
MonkeyOCR	0.880	0.826	0.853
OCRFlux-3B（本项目）	0.912	0.807	0.861

📁 使用场景建议

OCRFlux 特别适合以下应用场景：

金融领域：财报、投资分析报告、合同文本
学术研究：论文、技术文档、研究报告
法律文书：合同、判决书、法规条文
出版物处理：书籍扫描、杂志排版、多栏 PDF 转换

🛠️ 技术亮点

多模态架构：结合视觉理解与语言建模能力，实现精准的文档结构还原
跨页智能检测：通过序列建模判断是否需要合并，再利用对齐策略完成无缝拼接
表格重建优化：基于 HTML 结构化输出，支持 rowspan、colspan 等复杂表格格式
高效推理引擎：3B 规模模型在消费级 GPU 上即可运行，兼顾性能与部署成本

📚 深入了解

我们还提供了多个实际案例研究，展示 OCRFlux 在真实世界文档中的强大解析能力，包括：

学术论文中的复杂公式与图表提取
企业年报中的跨页财务报表
多语言混合文档的准确识别与排版还原

这些案例充分展示了 OCRFlux 在多种文档结构下的卓越适应性和稳定性。

数据统计

暂无评论

暂无评论...

OCRFlux

✨ 主要功能

整文件解析

🔍 核心优势

卓越的单页解析质量

在 OCRFlux-bench-single 基准测试中表现优异：

在 OCRFlux-pubtabnet-single 基准测试中的 HTML 表格生成效果：

原生支持跨页表格与段落合并

合并任务说明：

OCRFlux-bench-cross 基准测试结果（跨页检测性能）：

OCRFlux-pubtabnet-cross 基准测试结果（跨页表格合并）：

高效轻量级模型

📦 发布内容

🧪 安装与运行要求

硬件需求

软件依赖

📊 性能对比总结

单页解析对比（EDS）

单页表格解析对比（TEDS）

📁 使用场景建议

🛠️ 技术亮点

📚 深入了解

数据统计

相关导航

CSV2Chat

Wayback Archiver

AI Captcha Solver

AI Video Transcriber（AI视频转录器）

KEJILION.SH

C.O.R.E

NOMAD

flolife.me

暂无评论

网址

S.H.I.T

ITELLOU

waoo

OpenMAIC

OpResume

抓虾吧

标签云

网址

S.H.I.T

ITELLOU

waoo

OpenMAIC

OpResume

抓虾吧