IBM Research 正式发布 Granite Docling-258M,一款基于 IDEFICS3 架构构建的新型多模态图像-文本到文本模型,专为高效、准确的文档理解与结构化转换而设计。
- GitHub:https://github.com/docling-project/docling
- 模型:https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00
- 文档:https://docling-project.github.io/docling
- Demo:https://huggingface.co/spaces/ibm-granite/granite-docling-258m-demo
该模型深度集成于开源文档解析框架 Docling 中,在保留原有功能的基础上引入多项关键改进,显著提升在公式识别、布局分析和跨语言支持等方面的性能表现。

模型架构概览
| 组件 | 替换方案 |
|---|---|
| 原始视觉编码器 | → SigLIP2-Base-Patch16-512(更高分辨率感知能力) |
| 原始语言模型 | → Granite 165M LLM(更优的语言生成与推理能力) |
基于 IDEFICS3 的基础架构,Granite Docling 将两个核心模块替换为 IBM 自研组件,在保持轻量化的同时实现更强的语义对齐与生成质量。

参数总量约为 2.58 亿,适合边缘部署与本地运行,尤其适用于资源受限环境下的文档处理任务。
新增核心功能
更强的方程识别能力
- 支持精准检测并格式化数学公式
- 显著改善内联公式(inline equations)的识别效果
- 输出标准 LaTeX 表达式,便于科研与出版场景使用
灵活的推理模式
- 全页推理:一次性处理整页内容
- 区域引导推理(bbox-based):指定页面区域进行局部 OCR 或结构提取,适用于表格、图表等特定元素处理
文档元素问答(Document Element QA)
可回答关于文档结构的问题,例如:
- “第一页是否包含页眉?”
- “所有章节标题按顺序列出”
- “找出所有的脚注位置”
此功能增强了模型对文档语义结构的理解能力。
稳定性优化
通过改进解码机制,有效减少无限循环或卡顿现象,提升长文档处理的可靠性。
多语言支持(实验性)
初步支持 中文、日语、阿拉伯语 的文本识别与结构还原,为国际化文档处理提供可能。
与 Docling 生态无缝集成
Granite Docling 并非独立工具,而是作为 Docling 解析管道中的一个可选 VLM 组件,完全兼容现有流程:
PDF/DOCX/PPTX → Docling Pipeline → [Granite-Docling-258M] → 结构化输出
它继承了 Docling 的全部特性,并可通过插件方式替代原有单一模型组合,实现“一模型多任务”的简化架构。
核心特性一览
| 功能 | 说明 |
|---|---|
| 🗂️ 多格式支持 | PDF、DOCX、PPTX、XLSX、HTML、PNG/TIFF/JPEG、WAV/MP3 等 |
| 📑 高级 PDF 理解 | 页面布局、阅读顺序、表格结构、代码块、公式、图像分类 |
| 🧬 统一表示格式 | 输出为 DoclingDocument 对象,便于程序化操作 |
| ↪️ 多种导出选项 | Markdown、HTML、DocTags、无损 JSON |
| 🔒 本地执行 | 支持离线运行,满足敏感数据合规需求 |
| 🤖 即插即用集成 | 兼容 LangChain、LlamaIndex、Crew AI、Haystack 等主流 AI Agent 框架 |
| 🔍 强大 OCR 能力 | 支持扫描版 PDF 和图像文件的文字提取 |
| 👓 多 VLM 支持 | 可切换使用 Granite Vision 等其他视觉语言模型 |
| 🎙️ 音频支持 | 集成 ASR 模型处理会议记录、语音笔记等音频输入 |
| 🔌 MCP 协议支持 | 通过 MCP 服务器连接外部代理系统 |
| 💻 CLI 工具 | 提供命令行接口,便于自动化批处理 |
使用定位说明
Granite-Docling 是 Docling 的增强组件,不是通用图像理解模型。
- ❌ 不适用于一般图像 captioning 或开放域视觉问答
- ✅ 推荐用于:文档结构还原、公式提取、表格重建、代码片段识别等专业文档处理任务
对于需要更强图像-文本理解能力的任务(如图文对话),建议使用专门优化的 Granite Vision 系列模型。
性能评估对比(vs. smoldocling-256m-preview)
| 任务 | 指标 | smoldocling-256m-preview | granite-docling-258m |
|---|---|---|---|
| 布局检测 (F1 / MAP) | F1 ↑ / MAP ↑ | 0.85 / 0.23 | 0.86 / 0.27 |
| 全页 OCR (Edit-distance ↓ / F1 ↑) | Edit-dist ↓ / F1 ↑ | 0.48 / 0.80 | 0.45 / 0.84 |
| 代码识别 (Edit-distance ↓ / F1 ↑) | Edit-dist ↓ / F1 ↑ | 0.114 / 0.915 | 0.013 / 0.988 |
| 方程识别 (Edit-distance ↓ / F1 ↑) | Edit-dist ↓ / F1 ↑ | 0.119 / 0.947 | 0.073 / 0.968 |
| 表格识别 (FinTabNet @150dpi) | TEDS (w/content) ↑ | 0.76 | 0.96 |
| 综合基准 | MMStar ↑ / OCRBench ↑ | 0.17 / 338 | 0.30 / 500 |
数据表明,Granite Docling 在几乎所有关键指标上均实现显著提升,尤其是在代码、公式和表格识别方面接近人类水平。
评估工具推荐:
- 文档任务:
docling-eval - 多模态基准:
lmms-eval(支持 MMStar、OCRBench)
支持的指令集
| 描述 | 指令 | 简写 |
|---|---|---|
| 完整转换 | Convert this page to docling. | — |
| 图表转表格 | Convert chart to table. | <chart> |
| 公式转 LaTeX | Convert formula to LaTeX. | <formula> |
| 代码转文本 | Convert code to text. | <code> |
| 表格转 OTSL | Convert table to OTSL. (Lysak et al., 2023) | <otsl> |
| 区域 OCR | OCR the text in a specific location: <loc_155><loc_233><loc_206><loc_237> | — |
| 查找元素位置 | Find all 'text' elements on the page, retrieve section headings. | — |
| 检测页脚 | Detect footer elements on the page. | — |
注:
<loc_xxx>表示 bounding box 坐标标记,用于区域引导推理。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















