DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

多模态模型1个月前发布小马良

50 0

DeepSeek 发布 OCR-V2，这不是一次常规升级，而是一次架构级革新：彻底弃用 CLIP 视觉编码器，改用小型 LLM（Qwen2-0.5B）作为视觉编码器，并引入 “视觉因果流”（Visual Causal Flow）机制，让模型学会按人类阅读习惯处理文档——先看标题，再读正文，跳过页眉页脚，正确穿越双栏与表格。

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2
模型：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

这一设计解决了传统多模态模型在 OCR 任务中的根本缺陷：它们“看图”，但不会“读书”。

DeepSeek-OCR-V2：用 LLM 替代 CLIP，让 OCR 学会“像人一样阅读”

为什么 CLIP 不适合 OCR？

CLIP 是为“图文匹配”而生的——它把图像压缩成一个全局向量，用于回答“这张图是否包含狗？”这类问题。
但 OCR 需要的是顺序感知：必须知道“这句话在上一段之后”、“这个单元格属于左边那列”。

传统方法（包括 DeepSeek-OCR V1）将图像切成 16×16 的 patch，按光栅扫描顺序（从左到右、从上到下）拼接成 token 序列。
这在单栏文本中尚可，但在双栏论文、复杂表格、浮动公式面前彻底失效——同一语义单元被强行拆散，导致 LLM 无法还原正确阅读顺序。

DeepSeek-OCR-V2 的核心创新：视觉因果流

架构概览

视觉编码器：Qwen2-0.5B（decoder-only LLM）
关键组件：可学习的 Causal Flow Query（因果流查询）
输出：一条语义连贯的 1D token 序列，顺序接近人类眼动轨迹

工作流程（三步流水线）

Tokenizer（80M）
基于 SAM + 卷积，将图像下采样为 patch tokens（16× 分辨率）
DeepEncoder V2（0.5B）
- 先用双向注意力保留全局上下文
- 再引入等量 Causal Flow Query（数量 = patch 数）
- Query 通过因果注意力动态“阅读”patch，学习最优处理顺序
- 最终仅输出 已重排序的 Query tokens
DeepSeek-MoE Decoder（3B，激活 0.5B）
接收排序后的 token，自回归生成 OCR 文本（支持 Markdown / LaTeX）

✅ 关键设计：Query 与 patch 一一对应，确保信息无损；因果注意力强制顺序决策，避免全局混淆。

性能提升：不只是精度，更是效率

在 OmniDocBench v1.5 基准上的表现

模型	视觉 Token 上限	综合错误率	阅读顺序错误	表格错误	公式错误
DeepSeek-OCR (V1)	1156	12.6%	0.085	0.123	0.236
DeepSeek-OCR-V2	1120	8.9%	0.057	0.096	0.198
Gemini-3 Pro	1120	11.5%	0.115	—	—

生产环境指标

重复字符率：从 6.25% → 4.17%（在线用户图片）
预训练数据质量：PDF 批处理重复率从 3.69% → 2.88%
Token 压缩率：1024×1024 图像仅需 256–1120 token，比同类模型节省 30–70% 序列长度

三大工程优势

端到端文档理解
输入任意扫描件/PDF/手写笔记，直接输出带结构的文本（Markdown/LaTeX），无需后处理
阅读顺序恢复
自动识别标题、作者、双栏、表格、脚注，并按人类逻辑重组内容
生产级鲁棒性
低重复率、高容错性，已作为 DeepSeek 大模型预训练的数据管道，日处理千万页文档

典型应用场景

LLM 的“眼睛”：为 DeepSeek-Chat、GPT 等提供高精度文档读取能力
学术工具：一键将双栏论文转为结构化 Markdown，保留公式与参考文献
企业 OCR：处理带印章遮挡的发票、财报、合同，准确恢复表格结构
多模态统一入口：同一套 LLM-style 编码器未来可扩展至音频、视频，实现“一个编码器，多种模态”

为什么用 LLM 做视觉编码器？

天然对齐：编码器与解码器同为 LLM 架构，token 语义空间一致
顺序建模强项：LLM 的因果注意力天生适合处理序列依赖
训练效率高：三阶段训练（先训编码器 → 联合 query → 只训解码器），效率翻倍

这不是“为了不同而不同”，而是针对 OCR 任务本质的精准设计。

多模态模型 # DeepSeek-OCR-V2 # OCR模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里国际发布 Ovis2.6-30B-A3B：MoE 架构多模态大模型，低成本实现高性能视觉理解

阿里国际发布 Ovis2.6-30B-A3B：MoE 架构多模态大模型，低成本实现高性能视觉理解

多模态模型 # Ovis2.6-30B-A3B # 多模态大模型

4周前

0130

字节跳动 & 港大推出 Mini-o3：可扩展多轮推理的开源视觉智能体

字节跳动 & 港大推出 Mini-o3：可扩展多轮推理的开源视觉智能体

多模态模型 # Mini-o3 # 视觉智能体

6个月前

02080

微软推出全新多模态大语言模型家族Florence-VL

微软推出全新多模态大语言模型家族Florence-VL

多模态模型 # Florence-VL # 多模态大语言模型 # 微软

1年前

03130

上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

多模态模型 # InternVL3.5 # 上海AI实验室

7个月前

01820

暂无评论

none

暂无评论...