Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

在办公自动化、知识管理与智能体工作流中,将非结构化文档转化为结构化数据是关键第一步。然而,现实中的文档来源复杂:既有干净的 PDF、Word,也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往往在跨类型泛化细粒度元素识别上表现不足。

为此,字节跳动推出了 Dolphin-v2 —— 一个文档类型感知、两阶段混合解析的增强型通用文档解析模型。它不仅能处理数字原生文档,还能高精度解析真实拍摄的文档,支持 21 类文档元素,并在综合基准上比初代 Dolphin 提升 14.78 分

Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

核心改进:通用性 + 精度 + 保真度

✅ 通用文档支持

  • 数字文档:PDF、PPT、Word 等原生格式;
  • 拍摄文档:手机拍摄的发票、合同、论文页,包含透视畸变、光照不均、背景干扰。

✅ 21 类元素覆盖

在原有 14 类基础上,新增:

  • code:代码块(保留原始缩进与格式);
  • equ:数学公式(输出 LaTeX);
  • half_para:跨栏段落;
  • cataloguereferencefnote 等学术/出版专用元素。

✅ 绝对像素坐标定位

输出每个元素的精确边界框(x1, y1, x2, y2),支持下游精确定位、高亮或编辑。

✅ 混合解析策略

  • 数字文档 → 元素级并行解析:高效、低延迟;
  • 拍摄文档 → 整体页面级解析:鲁棒应对畸变与噪声。

✅ 专用解析模块

  • P_code:代码解析器保留空格与换行,避免“一团乱码”;
  • P_formula:公式转为 LaTeX,可直接用于科研或排版;
  • P_table:输出标准 HTML 表格,兼容 Excel、数据库导入。
Dolphin-v2:字节跳动发布支持21类元素的通用文档解析模型

两阶段架构:先分类,再解析

第一阶段:联合分类与布局分析

  • 文档类型判别:自动识别“数字原生” vs “拍摄图像”;
  • 阅读顺序重建:按人类阅读习惯输出元素序列(从左到右、从上到下、跨栏处理);
  • 21 类元素检测:包括标题层级(sec_0sec_5)、段落、图表、页眉页脚等。

第二阶段:条件式内容解析

根据第一阶段结果,动态选择解析路径:

文档类型解析方式特点
数字文档元素级并行高效、支持专用提示(P_codeP_formula 等)
拍摄文档页面级整体解析抗畸变、抗模糊、鲁棒性强

模型基于 Qwen2.5-VL-3B 构建:

  • 视觉编码器:NaViT(Native-resolution Vision Transformer),支持任意分辨率输入;
  • 解码器:自回归生成结构化 JSON,包含类型、坐标、内容。

性能表现:全面领先

在 OmniDocBench v1.5 综合基准上:

指标Dolphin-v2提升
综合得分89.45↑ +14.78
文本识别(编辑距离)0.054极低错误率
公式解析(CDM)86.72高精度 LaTeX 生成
表格结构(TEDS)87.02 / 90.48 (TEDS-S)准确还原行列关系
阅读顺序(编辑距离)0.054顺序几乎完美

注:TEDS 衡量表格结构相似度,CDM 评估公式语义正确性。

应用场景

Dolphin-v2 的能力可直接赋能:

  • 智能办公:自动提取合同关键条款、发票信息、简历字段;
  • 科研工作流:将论文 PDF 转为结构化 Markdown + LaTeX 公式 + 可运行代码块;
  • 教育工具:解析教材扫描件,生成带目录、习题、图表的数字课件;
  • AI 智能体:作为“文档理解模块”,为 Agent 提供精准上下文;
  • RAG 系统:提升文档分块质量,避免“表格被切碎”“代码丢失缩进”等问题。
© 版权声明

相关文章

暂无评论

none
暂无评论...