TNG科技微调 olmOCR推出olmOCR-7B-faithful：更忠实的 OCR 模型，适用于业务场景中的全面信息提取

208 0

光学字符识别（OCR）技术在文档数字化和信息提取领域扮演着重要角色。然而，传统的基于流水线的 OCR 系统虽然功能强大，却常常因无法处理复杂布局而受到限制。最近，艾伦人工智能研究所推出的 olmOCR 模型以其端到端的线性化能力引起了广泛关注，但在实际业务应用中，它却忽略了页眉、页脚等关键区域的信息。为了解决这一问题，TNG科技 对原始的 olmOCR 模型进行了微调，使其能够更忠实地提取文档中的所有内容，包括页眉、页脚和浮动元素。

模型：https://huggingface.co/tngtech/olmOCR-7B-faithful

传统 OCR 引擎的局限性

长期以来，OCR 技术依赖于基于流水线的系统。这些系统通常由多个机器学习组件组成，例如：

节段分割：将文档划分为不同的区域。
表格解析：识别并提取表格结构。
字符识别：识别单个字符或单词。

尽管这种方法在某些场景下表现良好，但它存在一个根本缺陷：提取的结果往往缺乏逻辑阅读顺序（即线性化）。对于布局复杂的文档（如多栏文本、浮动图表、页眉和页脚），这种系统难以生成符合人类阅读习惯的输出。

随着视觉语言模型（VLMs）的兴起，研究人员开始探索使用这些模型作为替代方案。与传统的流水线系统不同，视觉语言模型能够直接处理图像和文本的联合建模，从而更好地保留文档的上下文和结构。

起点：olmOCR-7B-0225-preview

olmOCR 是一种基于视觉语言模型的 OCR 工具，能够将 PDF 转换为干净、线性化的纯文本，同时保留文档的主要结构化内容。然而，该模型的设计初衷是为大型语言模型提供训练数据，因此有意忽略了文档中被认为“无关”的信息，例如页眉、页脚和浮动元素。

这种设计在生成训练数据时是有意义的，因为这些区域的内容通常无法自然融入阅读流程。但对于实际业务应用（如发票解析、合同分析等），这些被忽略的部分可能包含关键信息。例如，发票的页眉可能包含供应商名称和联系方式，页脚可能包含页码或总计金额。

微调 olmOCR：从训练到评估

为了使 olmOCR 更适合实际业务需求，TNG科技对其进行了微调，目标是让模型能够提取文档中的所有相关信息，包括页眉、页脚和其他浮动元素。

1. 数据集生成

微调过程的关键在于构建高质量的数据集。TNG科技利用 Qwen2.5-VL-72B-Instruct 生成了一个包含 8,000 个文档 的新数据集。这些文档涵盖了各种真实场景，并确保所有相关信息（包括页眉、页脚和浮动元素）都被准确标注。

2. 训练设置

微调基于开源的 olmOCR 训练流水线，在 8xH100 Nvidia 节点 上完成。训练过程中采用了以下配置：

梯度累积步骤：4 步
训练轮次：2.5 个 epoch
超参数：默认设置效果良好，无需进行资源密集型的超参数搜索

实验跟踪工具 Mlflow 显示了训练过程中的稳定性和性能提升。

3. 评估方法

评估使用了 olmOCR-mix-0225 数据集的自定义版本，其中包含了页眉、页脚和其他关键区域的信息。这些标注同样通过 Qwen2.5-VL-72B-Instruct 获取，确保了评估结果的可靠性。

微调后的 olmOCR 表现如何？

经过微调后，新的 olmOCR 模型在实际业务应用中表现出色。以下是主要改进和特点：

全面信息提取
- 微调后的模型能够提取文档中的所有内容，包括页眉、页脚和浮动元素。
- 这对于发票解析、合同分析等需要完整信息的场景至关重要。
保留线性化能力
- 尽管增加了对非核心区域的关注，模型仍然保持了原有的线性化能力，确保输出的文本符合逻辑阅读顺序。
表格解析能力
- 模型在简单表格的解析上表现良好，能够正确识别和提取表格内容。
温度对输出质量的影响
- 实验发现，生成输出的质量可能会因温度设置的不同而发生变化。较低的温度通常能生成更一致和精确的结果。

原始 olmOCR 与微调后的对比

特性	原始 olmOCR	微调后的 olmOCR
页眉和页脚信息	忽略	完整提取
浮动元素	部分支持	全面支持
线性化能力	优秀	保持优秀
表格解析	支持简单表格	支持简单表格
适用场景	大型语言模型训练数据生成	发票解析、合同分析等业务场景