Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

多模态模型6个月前发布 小马良
254 0

近日,Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型(LLMs)设计的图像转 Markdown 工具,具备强大的文档理解与结构化输出能力。

不同于传统仅提取纯文本的 OCR 系统,Nanonets-OCR-s 能识别并结构化处理数学公式、图表、签名、复选框、水印以及复杂表格等元素,将非结构化文档转化为 LLM 可直接使用的 Markdown 格式。

这一突破性模型为法律、学术、医疗、金融等多个行业的文档自动化流程提供了强大支持。

核心功能亮点

1. LaTeX 方程识别

自动识别图像中的数学表达式,并将其转换为标准的 LaTeX 语法。可区分:

  • 内联方程 → $...$
  • 展示方程 → $$...$$

这对科研论文和教学材料的数字化尤为重要。

2. 智能图像描述

使用 <img> 标签对图像内容进行语义级描述,包括图像类型(如图表、LOGO、QR码)、风格与上下文信息,便于 LLM 进一步分析。

3. 签名检测与隔离

从文档中识别出签名区域,并单独标记为 <signature>,特别适用于合同、授权书等法律文书的结构化提取。

4. 水印提取

识别并提取页面中的水印内容,标记为 <watermark>,确保文档来源与版权信息不被遗漏。

5. 智能复选框处理

将表单中的复选框与单选按钮统一转换为标准化 Unicode 符号(☐、☑、☒),提升数据一致性与机器处理可靠性。

6. 复杂表格提取

准确识别多列、跨页、合并单元格等复杂表格,并输出为 Markdown 或 HTML 表格格式,极大简化结构化数据提取流程。

为何选择 Nanonets-OCR-s?

大多数现有 OCR 工具只能提取纯文本,无法有效区分图像、签名、页码或复选框等元素,导致输出内容难以用于下游 AI 处理。

 Nanonets-OCR-s 的目标是:

“不仅提取文字,更要理解文档结构。”

通过智能语义标签系统,它将原始图像文档转化为富含结构信息的 Markdown 文件,非常适合后续由 LLM 进行进一步理解和推理。

训练背景与技术细节

该模型基于一个包含 超过 25 万页文档 的多样化训练集构建,涵盖:

  • 学术论文
  • 财务报表
  • 法律合同
  • 医疗表单
  • 税务发票
  • 收据等

训练分为两个阶段:

  1. 合成数据预训练
  2. 人工标注数据微调

模型以 Qwen2.5-VL-3B 作为基础视觉-语言模型(VLM),在特定任务上进行了深度优化,显著提升了文档识别精度。

当前局限性

尽管 Nanonets-OCR-s 功能强大,但仍存在以下限制:

  • 未针对手写文本训练,对手写体识别效果有限;
  • 可能出现幻觉现象,即生成不符合原图内容的标签,需结合人工校验使用。

典型应用场景

Nanonets-OCR-s 在多个行业具有广泛的应用潜力:

  • 学术研究:快速提取论文中的公式、图表与表格,助力知识检索;
  • 法律与金融:结构化处理合同、财务报告、贷款申请表等关键文档;
  • 医疗健康:从病历、处方中提取结构化信息,辅助电子病历系统;
  • 企业办公:将纸质报告扫描后直接转为可搜索、可编辑的知识库。
© 版权声明

相关文章

暂无评论

none
暂无评论...