艾伦AI研究所正式推出了 olmOCR,这是一款高性能的开源工具包,专为将 PDF 和文档图像转换为干净、结构化的纯文本而设计。
- GitHub:https://github.com/allenai/olmocr
- 模型:https://huggingface.co/collections/allenai/olmocr-67af8630b0062a25bf1b54a1
- Demo:https://olmocr.allenai.org
olmOCR 不仅能够保留文档的结构化内容(如章节、表格、列表和公式等),还能高效处理多种类型的 PDF 文档,包括学术论文、手册、法律文件等。它结合了文档锚定技术和经过微调的 7B 视觉语言模型(VLM),以低成本、高效率的方式提取和线性化文档内容。

olmOCR 的核心优势
1. 高性能文本提取
olmOCR 在从各种 PDF 文档中采样的 25 万页数据上进行了微调,能够从广泛类型的文档中准确提取文本。它支持表格、公式、手写内容等复杂元素,并保持自然阅读顺序。

2. 经济高效
olmOCR 的处理成本极低,每百万页 PDF 的转换成本仅为 190 美元,约为使用 GPT-4o API 批量处理相同数量页面成本的 1/32。
3. Markdown 格式输出
olmOCR 输出的文本为 Markdown 格式,便于解析和处理。它能够处理复杂多栏布局的文档,并保留公式、表格和手写内容的结构。
4. 功能齐全
olmOCR 是一个完全优化的流水线,兼容 SGLang 和 vLLM 推理引擎。它可以高效地从单个 GPU 扩展到数百个 GPU,并包含处理常见解析失败和元数据错误的启发式方法。
5. 完全开源
olmOCR 基于 Qwen2-VL-7B-Instruct 构建,所有组件均已开源,包括模型权重、微调数据集、训练和推理代码。
技术细节
1. 文档锚定技术
- 文档锚定 是一种利用 PDF 文件中现有文本和元数据的技术,旨在提高提取文本的质量。
- 通过结合 PDF 页面中的文本块位置信息和原始文本,olmOCR 显著减少了模型在处理模糊图像数据时的幻觉(hallucinations)现象。

2. 微调视觉语言模型
- olmOCR 使用了一个基于 Qwen2-VL-7B-Instruct 的 7B 参数视觉语言模型,并在包含 26 万页 PDF 的多样化数据集上进行微调。
- 数据集涵盖多种文档类型,包括学术论文、宣传册、法律文件、图表、幻灯片等,确保模型具备广泛的适应性。
3. 高效推理管道
- olmOCR 的推理管道基于 SGLang 和 vLLM 框架构建,能够高效处理大规模文档。
- 文档被批量处理为工作项,并在 GPU 上并行执行,从而实现高吞吐量和低延迟。
4. 鲁棒性增强
- olmOCR 实现了多种启发式算法,增强了系统的鲁棒性:
- 重试机制:自动重新处理失败的文档片段。
- 旋转校正:纠正扫描文档中的倾斜或旋转问题。
- 解码优化:改进对低质量扫描件的处理能力。
性能评估
olmOCR 在性能上显著优于其他流行的 PDF 提取工具。在与 Marker、MinerU 和 GOT-OCR 2.0 的对比中,olmOCR 的 ELO 评分超过 1800,具体表现如下:
- 61.3% 的对比中优于 Marker
- 58.6% 的对比中优于 GOT-OCR
- 71.4% 的对比中优于 MinerU
这些结果表明,olmOCR 在生成干净、结构化良好文本方面具有卓越的能力。
应用场景
1. 语言模型训练:olmOCR 提供的高质量文本数据可用于训练语言模型,尤其是那些需要大量高质量文本输入的模型。它能够将学术论文、书籍和手册中的文本提取出来,扩展语言模型的训练语料库。
2. 信息提取与检索:olmOCR 转换后的纯文本文件可用于信息提取任务,例如从法律文件中提取关键条款,或从技术手册中提取操作步骤。
3. 文档预览与阅读辅助:olmOCR 可以将复杂的 PDF 文档转换为易于阅读的纯文本格式,为用户提供更流畅的阅读体验,尤其是在移动设备上。
4. 学术研究与出版:olmOCR 能够高效处理学术论文和书籍,将其转换为适用于进一步研究和出版的格式,同时保留原始文档的结构和内容。
5. 企业文档管理:olmOCR 可用于企业内部文档的数字化管理,将扫描的 PDF 文档转换为可搜索和可编辑的文本格式,提高文档的可访问性和管理效率。