英伟达发布 Nemotron OCR v2：企业级多语言文本识别OCR模型

多模态模型5天前发布小马良

9 0

英伟达正式推出了 Nemotron OCR v2，这是一款专为复杂真实世界场景设计的尖端多语言光学字符识别（OCR）模型。作为 NVIDIA NeMo Retriever 系列的核心成员，该模型不仅实现了检测、识别与布局分析的端到端统一，更针对企业级应用的高吞吐量与低延迟需求进行了深度优化，现已准备好投入商业使用。

模型：https://huggingface.co/nvidia/nemotron-ocr-v2

核心突破：三位一体的架构革命

不同于传统 OCR 模型将检测与识别割裂处理，Nemotron OCR v2 创新性地集成了三个核心神经网络模块，形成闭环工作流：

高精度文本检测器
- 基于 RegNetX-8GF 卷积骨干网络，能在复杂背景、模糊或倾斜图像中精准定位文本区域。
强力文本识别器
- 采用基于预归一化 Transformer 的序列识别架构，支持可变长度的词与行转录，轻松应对多行、多块及自然场景文本。
智能关系模型 (独家亮点)
- 这是 v2 的灵魂所在。它利用多层全局关系模块，自动分析文本块之间的逻辑分组、阅读顺序及版面结构。
- 价值：完美解决复杂文档（如多栏报纸、表格、表单）的阅读顺序混乱问题，输出结构化极强的文本数据。

双版本策略：按需选择，极致效率

Nemotron OCR v2 提供两个专用版本，分别针对单语高性能和多语言通用性进行了优化：

特性	v2_english (英语版)	v2_multilingual (多语言版)
支持语言	英语	英语、简体中文、繁体中文、日语、韩语、俄语
处理粒度	词级 (Word-level)	行级 (Line-level)
Transformer 层数	3 层	6 层
隐藏维度	256	512
字符集大小	855	14,244 (覆盖东亚复杂字符)
总参数量	约 5,380 万 (轻量极速)	约 8,380 万 (全能强大)
适用场景	纯英文文档、高速流水线	跨国业务、多语言混合文档、证件识别

企业级特性与优势

1. 生产就绪 (Production-Ready)

低延迟高吞吐：针对 NVIDIA GPU 深度优化，适合大规模并发处理。
可商用许可：模型本身受 NVIDIA 开放模型许可协议 保护，后处理脚本采用 Apache 2.0，无法律后顾之忧。
数据合规：训练数据源自负责任选择且可审计的来源，符合企业合规要求。

2. 结构化输出

不仅仅是提取文字，更能还原文档逻辑：

输出包含：边界框坐标 + 识别文本 + 置信度分数。
通过关系模型，自动标记文本块的阅读顺序，直接服务于 RAG（检索增强生成）和知识库构建。

3. 灵活部署

Hugging Face: nvidia/nemotron-ocr-v2
NVIDIA Build: 2026年4月15日起可通过 API 调用。
NGC 容器: 提供预配置的微服务容器，一键部署。
输入兼容: 支持 RGB 图像 (PNG/JPEG)，自动处理多尺度缩放，支持 Batch 推理。

典型应用场景

智能文档处理 (IDP)：自动化处理发票、合同、报表，精准还原表格结构与多栏排版。
多语言内容检索：构建支持中、日、韩、俄等多语言的全球知识库，为 RAG 系统提供高质量数据源。
自然场景文本理解：路牌识别、货架商品标签读取、车辆牌照分析等复杂户外场景。
AI Agent 视觉感知：赋予智能体“阅读”屏幕、文档和现实世界的能力，支持基于视觉信息的自主决策。

技术规格速览

检测骨干: RegNetX-8GF
识别架构: Pre-Norm Transformer Decoder
训练方式: 端到端联合训练 (End-to-End Joint Training)
输入格式: B x 3 x H x W (支持批量), 自动归一化至 [0, 1]
输出格式: JSON 结构化数据 (Boxes, Text, Confidence, Reading Order)

多模态模型 # Nemotron OCR v # 英伟达

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态大语言模型Qwen2-VL-7B-Captioner-Relaxed：经过指令调整的Qwen2-VL-7B-Instruct版本

多模态模型 # Qwen2-VL-7B-Captioner-Relaxed # 多模态大语言模型

1年前

05970

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

字节跳动推出多模态大语言模型ChatTS：专门用于时间序列分析

多模态模型 # ChatTS # 多模态大语言模型 # 字节跳动

12个月前

02730

英伟达发布 Nemotron-Cascade 2：开源 30B MoE 模型，激活仅 3B 却斩获 IMO/IOI 金牌水平

英伟达发布 Nemotron-Cascade 2：开源 30B MoE 模型，激活仅 3B 却斩获 IMO/IOI 金牌水平

大语言模型 # Nemotron-Cascade 2 # 英伟达

2周前

01150

图像编辑通用模型OMNI-EDIT：通过专家监督来构建，能够执行多种图像编辑任务

图像编辑通用模型OMNI-EDIT：通过专家监督来构建，能够执行多种图像编辑任务

多模态模型 # OMNI-EDIT # 图像编辑

1年前

04680

暂无评论

none

暂无评论...