在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往往在跨类型泛化或细粒度元素识别上表现不足。
为此,字节跳动推出了 Dolphin-v2 —— 一个文档类型感知、两阶段混合解析的增强型通用文档解析模型。它不仅能处理数字原生文档,还能高精度解析真实拍摄的文档,支持 21 类文档元素,并在综合基准上比初代 Dolphin 提升 14.78 分。

核心改进:通用性 + 精度 + 保真度
✅ 通用文档支持
- 数字文档:PDF、PPT、Word 等原生格式;
- 拍摄文档:手机拍摄的发票、合同、论文页,包含透视畸变、光照不均、背景干扰。
✅ 21 类元素覆盖
在原有 14 类基础上,新增:
code:代码块(保留原始缩进与格式);equ:数学公式(输出 LaTeX);half_para:跨栏段落;catalogue、reference、fnote等学术/出版专用元素。
✅ 绝对像素坐标定位
输出每个元素的精确边界框(x1, y1, x2, y2),支持下游精确定位、高亮或编辑。
✅ 混合解析策略
- 数字文档 → 元素级并行解析:高效、低延迟;
- 拍摄文档 → 整体页面级解析:鲁棒应对畸变与噪声。
✅ 专用解析模块
P_code:代码解析器保留空格与换行,避免“一团乱码”;P_formula:公式转为 LaTeX,可直接用于科研或排版;P_table:输出标准 HTML 表格,兼容 Excel、数据库导入。

两阶段架构:先分类,再解析
第一阶段:联合分类与布局分析
- 文档类型判别:自动识别“数字原生” vs “拍摄图像”;
- 阅读顺序重建:按人类阅读习惯输出元素序列(从左到右、从上到下、跨栏处理);
- 21 类元素检测:包括标题层级(
sec_0–sec_5)、段落、图表、页眉页脚等。
第二阶段:条件式内容解析
根据第一阶段结果,动态选择解析路径:
| 文档类型 | 解析方式 | 特点 |
|---|---|---|
| 数字文档 | 元素级并行 | 高效、支持专用提示(P_code, P_formula 等) |
| 拍摄文档 | 页面级整体解析 | 抗畸变、抗模糊、鲁棒性强 |
模型基于 Qwen2.5-VL-3B 构建:
- 视觉编码器:NaViT(Native-resolution Vision Transformer),支持任意分辨率输入;
- 解码器:自回归生成结构化 JSON,包含类型、坐标、内容。
性能表现:全面领先
在 OmniDocBench v1.5 综合基准上:
| 指标 | Dolphin-v2 | 提升 |
|---|---|---|
| 综合得分 | 89.45 | ↑ +14.78 |
| 文本识别(编辑距离) | 0.054 | 极低错误率 |
| 公式解析(CDM) | 86.72 | 高精度 LaTeX 生成 |
| 表格结构(TEDS) | 87.02 / 90.48 (TEDS-S) | 准确还原行列关系 |
| 阅读顺序(编辑距离) | 0.054 | 顺序几乎完美 |
注:TEDS 衡量表格结构相似度,CDM 评估公式语义正确性。
应用场景
Dolphin-v2 的能力可直接赋能:
- 智能办公:自动提取合同关键条款、发票信息、简历字段;
- 科研工作流:将论文 PDF 转为结构化 Markdown + LaTeX 公式 + 可运行代码块;
- 教育工具:解析教材扫描件,生成带目录、习题、图表的数字课件;
- AI 智能体:作为“文档理解模块”,为 Agent 提供精准上下文;
- RAG 系统:提升文档分块质量,避免“表格被切碎”“代码丢失缩进”等问题。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















