小红书 hi lab 推出 dots.ocr：一个更高效、更统一的文档解析方案

1,120 0

小红书 hi lab 团队近期发布了一款名为 dots.ocr 的多语言文档解析模型。它不是传统OCR工具的简单升级，而是一次架构层面的重构——将布局检测与内容识别统一在一个视觉-语言模型（VLM）中，同时保持准确的阅读顺序输出。

GitHub：https://github.com/rednote-hilab/dots.ocr
模型：https://huggingface.co/rednote-hilab/dots.ocr

尽管其基于仅 17亿参数的LLM 作为基础，dots.ocr 在多项任务上达到了当前最优（SOTA）水平，展现出小模型也能实现高性能的可能性。

✅ 核心优势

1. 性能领先：在关键指标上达到SOTA

在标准测试集 OmniDocBench 上，dots.ocr 表现全面：

文本识别准确率高
表格结构还原能力强
阅读顺序保持良好

尤其值得注意的是，在公式识别方面，其表现接近甚至媲美更大规模的模型（如 Doubao-1.5 和 Gemini 1.5 Pro），说明其在复杂语义理解上的潜力。

数据参考：EN、ZH 指标来自 OmniDocBench 的端到端评估结果。

2. 多语言支持扎实，低资源语言表现突出

针对非英语语种的文档处理，许多现有模型存在明显短板。而 dots.ocr 在内部构建的 dots.ocr-bench 多语言基准上，展现了更强的泛化能力。

无论是拉丁语系、阿拉伯语，还是东亚语言（如日文、韩文），模型在布局检测和文本识别两个环节均表现出稳定优势，尤其对低资源语言的支持更具实用性。

数据参考：多语言指标基于 dots.ocr-bench 的端到端评估。

3. 架构统一，使用灵活

传统文档解析流程通常依赖多个独立模块：先用目标检测模型做版面分析，再分别调用OCR、表格识别、公式识别等子系统，流程复杂且易出错。

dots.ocr 则采用单一视觉-语言模型完成所有任务。通过更换输入提示（prompt），即可切换不同功能，例如：

prompt_layout_only_en：仅提取布局
prompt_ocr：完整OCR解析
prompt_grounding_ocr：定位+识别

这种设计不仅简化了部署流程，也验证了VLM在文档理解任务中具备与专业检测模型（如 DocLayout-YOLO）相竞争的能力。

4. 推理速度快，资源消耗低

得益于17亿参数的紧凑结构，dots.ocr 在推理速度上优于多数基于大模型的同类系统。这意味着：

更低的部署成本
更快的响应时间
更适合边缘设备或高并发场景

对于需要实时处理大量文档的应用场景（如知识库构建、自动化办公），这一特性尤为关键。

⚖️ 与其他模型的对比

注：性能对比基于公开测试集及团队内部评估。

⚠️ 当前局限性

尽管表现优异，dots.ocr 仍处于持续迭代阶段，存在以下几点限制：

1. 复杂元素处理有待提升

表格：对嵌套、跨页或高度非结构化的表格，还原精度尚未完全理想。
数学公式：虽已具备基本识别能力，但对复杂LaTeX结构的还原仍有误差。
图像内容：目前无法解析文档中的插图、图表或图像文字（如截图中的说明文字）。

2. 特定情况下的解析失败风险

分辨率过低或字符过小：当字符像素比例过低时，识别准确率下降。建议：
- 提高PDF转图像的DPI（推荐200）
- 图像总像素不超过11289600（约3360×3360），以保证推理效率
连续特殊字符干扰：如 ... 或 ___ 可能导致输出重复。可通过切换提示词缓解。

3. 大文件处理尚未优化

目前模型未针对大规模PDF文档的批量吞吐进行专项优化，在处理上百页文档时可能存在性能瓶颈。

🔮 未来方向

团队已明确下一步研发重点：

提升表格与公式的解析精度，尤其是复杂排版场景下的结构还原
增强OCR鲁棒性，覆盖更多字体、噪声、倾斜文档等边缘情况
开发更高效的推理机制，支持长文档、大批量处理
探索基于VLM的通用感知框架，整合：
- 通用目标检测
- 图像描述生成
- OCR与语义理解
实现图片内容解析：让文档中的图表、示意图也能被“读懂”

团队强调，这些目标的实现离不开社区协作与开放反馈。

多模态模型 # dots.ocr # 小红书

文章版权归作者所有，未经允许请勿转载。

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

多模态模型 # WeatherNext 2 # 天气预报 # 谷歌

4个月前

0910

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

多模态模型 # Ovis1.6-Gemma2-9B # 多模态大语言模型

1年前

05540

月之暗面推出高效开源视觉-语言模型Kimi-VL

多模态模型 # Kimi-VL # 月之暗面

11个月前

04270

字节跳动推出具备长期记忆的多模态智能体 M3-Agent

多模态模型 # M3-Agent # 多模态智能体 # 字节跳动

7个月前

03310

暂无评论

暂无评论...

小红书 hi lab 推出 dots.ocr：一个更高效、更统一的文档解析方案

✅ 核心优势

1. 性能领先：在关键指标上达到SOTA

2. 多语言支持扎实，低资源语言表现突出

3. 架构统一，使用灵活

4. 推理速度快，资源消耗低

⚖️ 与其他模型的对比

⚠️ 当前局限性

1. 复杂元素处理有待提升

2. 特定情况下的解析失败风险

3. 大文件处理尚未优化

🔮 未来方向

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

相关文章

谷歌发布 WeatherNext 2：AI 天气预报模型速度提升 8 倍，精准到小时级

阿里国际推出多模态大语言模型 Ovis1.6-Gemma2-9B：能够同时处理和理解文本和视觉信息

月之暗面推出高效开源视觉-语言模型Kimi-VL

字节跳动推出具备长期记忆的多模态智能体 M3-Agent

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

零成本尝鲜 OpenClaw：一部安卓手机就能跑起本地 AI 助手

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

LTX-2.3 提示词终极指南：从“抽卡”到“导演”，解锁原生视频生成的掌控力

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

CoPaw

小红书 hi lab 推出 dots.ocr：一个更高效、更统一的文档解析方案

✅ 核心优势

1. 性能领先：在关键指标上达到SOTA

2. 多语言支持扎实，低资源语言表现突出

3. 架构统一，使用灵活

4. 推理速度快，资源消耗低

⚖️ 与其他模型的对比

⚠️ 当前局限性

1. 复杂元素处理有待提升

2. 特定情况下的解析失败风险

3. 大文件处理尚未优化

🔮 未来方向

昆仑万维天工项目组推出多模态模型Skywork UniPic：能够统一处理图像理解、文本到图像生成和图像编辑等多种任务

小红书 hi lab 开源首个视觉-语言模型：dots.vlm1

相关文章

文章

标签云

网址

S.H.I.T

WorkBuddy

QClaw

新ArkClaw

新AutoClaw

CoPaw