Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

多模态模型4个月前发布小马良

157 0

在办公自动化、知识管理与智能体工作流中，将非结构化文档转化为结构化数据是关键第一步。然而，现实中的文档来源复杂：既有干净的 PDF、Word，也有手机拍摄的带畸变、阴影、模糊的纸质文件。现有解析模型往往在跨类型泛化或细粒度元素识别上表现不足。

GitHub：https://github.com/bytedance/Dolphin
模型：https://huggingface.co/ByteDance/Dolphin-v2

为此，字节跳动推出了 Dolphin-v2 —— 一个文档类型感知、两阶段混合解析的增强型通用文档解析模型。它不仅能处理数字原生文档，还能高精度解析真实拍摄的文档，支持 21 类文档元素，并在综合基准上比初代 Dolphin 提升 14.78 分。

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

核心改进：通用性 + 精度 + 保真度

✅ 通用文档支持

数字文档：PDF、PPT、Word 等原生格式；
拍摄文档：手机拍摄的发票、合同、论文页，包含透视畸变、光照不均、背景干扰。

✅ 21 类元素覆盖

在原有 14 类基础上，新增：

code：代码块（保留原始缩进与格式）；
equ：数学公式（输出 LaTeX）；
half_para：跨栏段落；
catalogue、reference、fnote 等学术/出版专用元素。

✅ 绝对像素坐标定位

输出每个元素的精确边界框（x1, y1, x2, y2），支持下游精确定位、高亮或编辑。

✅ 混合解析策略

数字文档 → 元素级并行解析：高效、低延迟；
拍摄文档 → 整体页面级解析：鲁棒应对畸变与噪声。

✅ 专用解析模块

P_code：代码解析器保留空格与换行，避免“一团乱码”；
P_formula：公式转为 LaTeX，可直接用于科研或排版；
P_table：输出标准 HTML 表格，兼容 Excel、数据库导入。

Dolphin-v2：字节跳动发布支持21类元素的通用文档解析模型

两阶段架构：先分类，再解析

第一阶段：联合分类与布局分析

文档类型判别：自动识别“数字原生” vs “拍摄图像”；
阅读顺序重建：按人类阅读习惯输出元素序列（从左到右、从上到下、跨栏处理）；
21 类元素检测：包括标题层级（sec_0–sec_5）、段落、图表、页眉页脚等。

第二阶段：条件式内容解析

根据第一阶段结果，动态选择解析路径：

文档类型	解析方式	特点
数字文档	元素级并行	高效、支持专用提示（`P_code`, `P_formula` 等）
拍摄文档	页面级整体解析	抗畸变、抗模糊、鲁棒性强

模型基于 Qwen2.5-VL-3B 构建：

视觉编码器：NaViT（Native-resolution Vision Transformer），支持任意分辨率输入；
解码器：自回归生成结构化 JSON，包含类型、坐标、内容。

性能表现：全面领先

在 OmniDocBench v1.5 综合基准上：

指标	Dolphin-v2	提升
综合得分	89.45	↑ +14.78
文本识别（编辑距离）	0.054	极低错误率
公式解析（CDM）	86.72	高精度 LaTeX 生成
表格结构（TEDS）	87.02 / 90.48 (TEDS-S)	准确还原行列关系
阅读顺序（编辑距离）	0.054	顺序几乎完美

注：TEDS 衡量表格结构相似度，CDM 评估公式语义正确性。

应用场景

Dolphin-v2 的能力可直接赋能：

智能办公：自动提取合同关键条款、发票信息、简历字段；
科研工作流：将论文 PDF 转为结构化 Markdown + LaTeX 公式 + 可运行代码块；
教育工具：解析教材扫描件，生成带目录、习题、图表的数字课件；
AI 智能体：作为“文档理解模块”，为 Agent 提供精准上下文；
RAG 系统：提升文档分块质量，避免“表格被切碎”“代码丢失缩进”等问题。

多模态模型 # Dolphin-v2 # 字节跳动 # 文档解析模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

POINTS-Reader：无需蒸馏、端到端的轻量级文档视觉语言模型

多模态模型 # POINTS-Reader # 文档视觉语言模型

7个月前

02240

阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B，支持 FP8 低显存部署

阿里巴巴 Qwen 推出紧凑型多模态模型 Qwen3-VL 4B/8B，支持 FP8 低显存部署

多模态模型 # Qwen3-VL 4B # Qwen3-VL 8B # 多模态模型

6个月前

03390

字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

字节跳动发布 Seedream 4.0：首次支持多模态生图，同一模型实现文生图、图像编辑、组图生成

图像模型 # Seedream 4.0 # 即梦图片4.0 # 字节跳动

7个月前

04120

LightOn AI推出的第二代模型 LightOnOCR-2-1B：1B 参数端到端 OCR 模型，支持边界框输出

LightOn AI推出的第二代模型 LightOnOCR-2-1B：1B 参数端到端 OCR 模型，支持边界框输出

多模态模型 # LightOn AI # LightOnOCR-2-1B # OCR 模型

2个月前

01160

暂无评论

none

暂无评论...