百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

多模态模型5个月前发布小马良

27 0

百度飞桨团队近日开源 PaddleOCR-VL（0.9B）——一款专为复杂版式文档智能解析设计的视觉语言模型（VLM）。该模型以仅 9亿参数的轻量级架构，实现了对文本、表格、数学公式、图表及手写体的高精度端到端识别，并支持 109 种语言，同时兼顾部署所需的低延迟与内存效率。

项目主页：https://ernie.baidu.com/blog/zh/posts/paddleocr-vl
模型：https://huggingface.co/collections/PaddlePaddle/paddleocr-vl

核心目标：真实世界文档的结构化还原

传统 OCR 工具在处理以下场景时常表现不佳：

多栏混排版式（如学术论文、财报）
小语种文字（如泰语、阿拉伯语、藏文）
数学公式与手写批注共存
图表与表格嵌套

PaddleOCR-VL 旨在将这些复杂文档直接转换为结构化 Markdown 或 JSON，保留原始逻辑与语义，满足企业级文档自动化、知识抽取、档案数字化等需求。

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

系统架构：两阶段流水线，兼顾精度与效率

为避免端到端 VLM 在长序列解码中的延迟激增与输出不稳定，团队采用解耦式两阶段设计：

第一阶段：PP-DocLayoutV2（版面分析）

基于 RT-DETR 检测器，精准识别页面中的文本块、表格、公式、图表、手写区等区域；
通过指针网络预测人类阅读顺序（Reading Order），解决多栏、图文穿插场景下的逻辑流重建问题。

第二阶段：PaddleOCR-VL-0.9B（元素识别）

接收布局结果，对每个区域进行细粒度内容识别；
输出统一聚合为 Markdown（保留结构） 与 JSON（供程序解析）。

此设计显著降低了端到端模型在密集页面上的长上下文压力，提升系统稳定性与响应速度。

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

模型创新：NaViT + ERNIE-4.5 轻量协同

PaddleOCR-VL-0.9B 的核心架构融合多项前沿技术：

组件	技术	优势
视觉编码器	NaViT 风格动态高分辨率编码器	支持原生分辨率序列打包，避免传统缩放导致的细节丢失与“幻觉”
投影层	2层 MLP	高效对齐视觉与语言表征
语言解码器	ERNIE-4.5-0.3B	轻量级但强大的中文/多语言理解能力
位置编码	3D-RoPE（三维旋转位置编码）	精确建模页面中的空间-序列双重关系

实验表明，原生分辨率处理相比固定缩放或分块策略，在密集文本区域识别准确率提升显著，尤其对小字号、低质量扫描件效果突出。

性能表现：SOTA 精度 + 部署友好

在权威基准 OmniDocBench v1.5 上，PaddleOCR-VL 表现如下：

文本识别：编辑距离（Edit Distance）达当前最优；
公式识别：Formula-CDM 指标领先；
表格解析：TEDS 与 TEDS-S（结构相似度）保持 SOTA；
阅读顺序：顺序预测准确率显著优于端到端方案；
手写/图表：在内部评测中展现强泛化能力。

同时，模型支持 vLLM / SGLang 等推理加速框架，可在消费级 GPU 上实现秒级文档解析，满足生产环境需求。

百度飞桨发布 PaddleOCR-VL（0.9B）：轻量级端到端多语言文档解析模型

核心亮点总结

9亿参数轻量模型：精度与效率平衡，适合边缘/云端部署；
端到端结构化输出：直接生成 Markdown/JSON，无需后处理；
109 种语言支持：覆盖主流及小语种，适配全球化场景；
复杂元素全覆盖：文本、表格、公式、图表、手写体一体化识别；
开源可商用：基于飞桨生态，提供完整训练与推理工具链。

技术意义：文档智能的实用化突破

PaddleOCR-VL 的发布标志着文档 AI 从“能识别”迈向“可部署、可信任、可集成”：

NaViT 动态分辨率解决了视觉细节丢失问题；
两阶段流水线平衡了端到端理想与工程现实；
ERNIE 轻量解码器确保多语言语义准确性；
结构化输出+推理优化打通了从模型到产品的最后一公里。

对于金融、法律、教育、政务等高度依赖非结构化文档的行业，PaddleOCR-VL 提供了一个开箱即用、高精度、低成本的智能文档解析解决方案。

多模态模型 # PaddleOCR-VL # 文档解析模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯AI实验室联合两校发布Vision-SR1：自我奖励+推理分解，破解VLM视觉推理难题

腾讯AI实验室联合两校发布Vision-SR1：自我奖励+推理分解，破解VLM视觉推理难题

多模态模型 # Vision-SR1 # 视觉-语言模型

7个月前

03320

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

MiniMax推出视觉三重统一强化学习（RL）系统 V-Triune ：使视觉语言模型能够在单一训练流程中联合学习视觉推理和感知任务

多模态模型 # MiniMax # V-Triune # 视觉语言模型

11个月前

05230

无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

无问芯穹推出全球首个端侧全模态理解开源模型Megrez-3B-Omni

多模态模型 # Megrez-3B-Omni # 无问芯穹

1年前

02750

Cohere 推出多语言多模态视觉模型 Aya Vision：集成了语言和视觉功能，并支持多达 23 种语言的输入

Cohere 推出多语言多模态视觉模型 Aya Vision：集成了语言和视觉功能，并支持多达 23 种语言的输入

多模态模型 # Aya Vision # Cohere # 多模态视觉模型

1年前

02270

暂无评论

none

暂无评论...