Nanonets 正式发布并开源了 OCR2 系列模型,包含 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。作为一套面向高级文档处理的模型套件,其核心定位是将图像文档精准转换为结构化 Markdown,同时原生支持视觉问答(VQA)功能,为复杂文档的理解与信息提取提供解决方案。
- GitHub:https://github.com/NanoNets/docstrange
- 模型:https://huggingface.co/collections/nanonets/nanonets-ocr2-68ed207f17ee6c31d226319e
- Demo:https://docstrange.nanonets.com
该系列模型基于 Qwen2-VL 进行微调优化,其中 3B 版本的训练覆盖了超过 300 万页混合文档,类型涵盖论文、财报、合同、病历、税表、收据、手写材料及多语种内容,全面适配真实场景中的文档处理需求。

相较于前代模型 Nanonets-OCR-s,OCR2 系列在文档理解与内容区分能力上实现了显著增强:不仅能精准区分标准文本与水印、签名、页眉页脚、复选框、页码等专用元素,还能为文档中的视觉元素提供更具描述性的解释,尤其在表格、复选框、数学方程等复杂结构的处理上表现突出。此外,新模型支持为流程图和组织结构图生成 Mermaid 代码,让结构化信息可直接实现可视化呈现。

在视觉问答功能上,OCR2 系列经过上下文驱动的针对性训练:当请求的信息存在于文档中时,会直接返回精准答案;若信息未提及,则明确回应“Not mentioned”。这种设计大幅减少了泛化 VQA 模型常见的幻觉问题,让输出结果更可靠。
核心功能与能力
OCR2 系列模型的功能覆盖文档处理全场景,核心能力包括 9 个维度:
1. LaTeX 方程识别
自动将文档中的数学方程、公式转换为标准 LaTeX 语法,内联数学表达式对应 LaTeX 内联方程,显示方程对应 LaTeX 显示方程,页码信息会在 <page_number> 标签内标注。
2. 智能图像描述
通过结构化 <img> 标签描述文档中的图像(徽标、图表、图形、QR 码等),优先使用图注作为描述,无图注时自动生成包含内容、样式与上下文的描述,便于 LLM 后续处理,支持单张或多张图像识别。
3. 签名检测与隔离
针对法律、业务类文档的核心需求,可识别并隔离签名与其他文本,签名信息会在 <signature> 标签内呈现;若签名不可读,将返回 <signature>signature</signature> 标记已签名状态。
4. 水印提取
与签名检测逻辑一致,可精准提取文档中的水印文本,并在 <watermark> 标签内输出,即便面对低质量图像也能保持良好性能。
5. 智能复选框处理
将表单中的复选框、单选按钮转换为标准 Unicode 符号,确保处理一致性,复选框状态会在 <checkbox> 标签内标注。
6. 复杂表格提取
支持从文档中提取复杂表格结构,并直接转换为 Markdown 或 HTML 格式,无需二次编辑即可复用。
7. 流程图与组织结构图处理
可自动提取流程图、组织结构图的 Mermaid 代码,实现结构化信息的无缝可视化转换。
8. 多语言支持
训练数据覆盖英语、中文、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、阿拉伯语等多种语言,适配跨国、多语种文档处理场景。
9. 视觉问答(VQA)
专注于文档内信息提取,答案存在时直接输出,不存在时明确回应“Not mentioned”,减少无效输出与幻觉。
与 DOTS.OCR 的核心维度对比
为直观呈现性能优势,OCR2 系列在关键功能上与 DOTS.OCR 进行了针对性对比:
- 复选框检测与提取
- 流程图提取效果
- 图像描述生成质量
- 签名检测精准度
- 复杂表格提取能力
- 水印处理效果
模型评估情况
1. 图像到 Markdown 评估
采用 Gemini-2.5-Pro 作为评估模型,对 OCR2 系列生成的 Markdown 输出进行量化评估。尽管现有 olmOCRbench、OmniDocBench 等基准可用,但它们在图像到 Markdown 性能评估中存在显著局限性(具体细节将在后续单独分享)。目前评估代码与模型预测结果计划在 GitHub 仓库开源,供开发者参考。
2. VQA 能力评估
基于 IDP Leaderboard 的 VQA 数据集进行测试,核心结果如下(评分越高性能越优):
| 数据集 | Nanonets OCR 2+ | Nanonets OCR 2 3B | Qwen 2.5-VL-72B Instruct | Gemini-2.5-Flash |
|---|---|---|---|---|
| Chart QA | 79.20 | 78.56 | 76.20 | 84.82 |
| DocVQA | 85.15 | 89.43 | 84.00 | 85.51 |
从结果可见,OCR2 3B 版本在 DocVQA 任务中表现优于同级别模型,OCR2+ 版本在 Chart QA 任务中保持竞争力。
模型训练细节
为实现高精度 OCR 能力,团队构建了超过 300 万页的多样化训练数据集,覆盖研究论文、财务报告、法律合同、医疗记录、税务表格、收据发票等主流文档类型,同时纳入嵌入图像、图表、方程、签名、水印、复选框、复杂表格、流程图、组织结构图、手写材料及多语种内容,确保覆盖真实场景中的各类文档变体。
训练流程采用“合成数据集预训练 + 手动标注数据集微调”的两步法:以 Qwen2.5-VL-3B 作为基模型,通过精选数据集的针对性微调,强化其在文档特定 OCR 任务中的性能表现。
模型局限性
- 面对超复杂流程图、组织结构图时,可能生成不准确的结果;
- 仍存在一定的幻觉风险,虽已通过针对性训练降低,但未完全消除。
典型应用场景
OCR2 系列通过解锁非结构化文档的结构化数据,简化了多行业的文档处理流程:
- 学术与研究:快速数字化含 LaTeX 方程、复杂表格的论文,提升文献整理效率;
- 法律与金融:精准提取合同、财报中的关键信息(签名、表格、水印等),优化合规审核流程;
- 医疗与制药:准确捕获医疗表单中的文本、复选框信息,助力病历数字化与数据统计;
- 企业与企业级:将各类报告转换为可搜索、图像感知的知识库,提升内部信息检索效率。
在 LLM 驱动自动化的趋势下,非结构化数据是行业落地的核心瓶颈。Nanonets-OCR2 系列模型的推出,恰好弥合了这一差距——将杂乱的图像文档转化为干净、结构化、上下文丰富的 Markdown 格式,为现代 AI 应用的落地提供了关键的数据支撑。















