IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

多模态模型3个月前发布 小马良
78 0

IBM Research 正式发布 Granite Docling-258M,一款基于 IDEFICS3 架构构建的新型多模态图像-文本到文本模型,专为高效、准确的文档理解与结构化转换而设计。

该模型深度集成于开源文档解析框架 Docling 中,在保留原有功能的基础上引入多项关键改进,显著提升在公式识别、布局分析和跨语言支持等方面的性能表现。

IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

模型架构概览

组件替换方案
原始视觉编码器→ SigLIP2-Base-Patch16-512(更高分辨率感知能力)
原始语言模型→ Granite 165M LLM(更优的语言生成与推理能力)

基于 IDEFICS3 的基础架构,Granite Docling 将两个核心模块替换为 IBM 自研组件,在保持轻量化的同时实现更强的语义对齐与生成质量。

IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

参数总量约为 2.58 亿,适合边缘部署与本地运行,尤其适用于资源受限环境下的文档处理任务。

新增核心功能

更强的方程识别能力

  • 支持精准检测并格式化数学公式
  • 显著改善内联公式(inline equations)的识别效果
  • 输出标准 LaTeX 表达式,便于科研与出版场景使用

灵活的推理模式

  • 全页推理:一次性处理整页内容
  • 区域引导推理(bbox-based):指定页面区域进行局部 OCR 或结构提取,适用于表格、图表等特定元素处理

文档元素问答(Document Element QA)

可回答关于文档结构的问题,例如:

  • “第一页是否包含页眉?”
  • “所有章节标题按顺序列出”
  • “找出所有的脚注位置”

此功能增强了模型对文档语义结构的理解能力。

稳定性优化

通过改进解码机制,有效减少无限循环或卡顿现象,提升长文档处理的可靠性。

多语言支持(实验性)

初步支持 中文、日语、阿拉伯语 的文本识别与结构还原,为国际化文档处理提供可能。

与 Docling 生态无缝集成

Granite Docling 并非独立工具,而是作为 Docling 解析管道中的一个可选 VLM 组件,完全兼容现有流程:

PDF/DOCX/PPTX → Docling Pipeline → [Granite-Docling-258M] → 结构化输出

它继承了 Docling 的全部特性,并可通过插件方式替代原有单一模型组合,实现“一模型多任务”的简化架构。

核心特性一览

功能说明
🗂️ 多格式支持PDF、DOCX、PPTX、XLSX、HTML、PNG/TIFF/JPEG、WAV/MP3 等
📑 高级 PDF 理解页面布局、阅读顺序、表格结构、代码块、公式、图像分类
🧬 统一表示格式输出为 DoclingDocument 对象,便于程序化操作
↪️ 多种导出选项Markdown、HTML、DocTags、无损 JSON
🔒 本地执行支持离线运行,满足敏感数据合规需求
🤖 即插即用集成兼容 LangChain、LlamaIndex、Crew AI、Haystack 等主流 AI Agent 框架
🔍 强大 OCR 能力支持扫描版 PDF 和图像文件的文字提取
👓 多 VLM 支持可切换使用 Granite Vision 等其他视觉语言模型
🎙️ 音频支持集成 ASR 模型处理会议记录、语音笔记等音频输入
🔌 MCP 协议支持通过 MCP 服务器连接外部代理系统
💻 CLI 工具提供命令行接口,便于自动化批处理

使用定位说明

Granite-Docling 是 Docling 的增强组件,不是通用图像理解模型。

  • ❌ 不适用于一般图像 captioning 或开放域视觉问答
  • ✅ 推荐用于:文档结构还原、公式提取、表格重建、代码片段识别等专业文档处理任务

对于需要更强图像-文本理解能力的任务(如图文对话),建议使用专门优化的 Granite Vision 系列模型

性能评估对比(vs. smoldocling-256m-preview)

任务指标smoldocling-256m-previewgranite-docling-258m
布局检测
(F1 / MAP)
F1 ↑ / MAP ↑0.85 / 0.230.86 / 0.27
全页 OCR
(Edit-distance ↓ / F1 ↑)
Edit-dist ↓ / F1 ↑0.48 / 0.800.45 / 0.84
代码识别
(Edit-distance ↓ / F1 ↑)
Edit-dist ↓ / F1 ↑0.114 / 0.9150.013 / 0.988
方程识别
(Edit-distance ↓ / F1 ↑)
Edit-dist ↓ / F1 ↑0.119 / 0.9470.073 / 0.968
表格识别
(FinTabNet @150dpi)
TEDS (w/content) ↑0.760.96
综合基准MMStar ↑ / OCRBench ↑0.17 / 3380.30 / 500

数据表明,Granite Docling 在几乎所有关键指标上均实现显著提升,尤其是在代码、公式和表格识别方面接近人类水平。

评估工具推荐:

  • 文档任务:docling-eval
  • 多模态基准:lmms-eval(支持 MMStar、OCRBench)

支持的指令集

描述指令简写
完整转换Convert this page to docling.
图表转表格Convert chart to table.<chart>
公式转 LaTeXConvert formula to LaTeX.<formula>
代码转文本Convert code to text.<code>
表格转 OTSLConvert table to OTSL. (Lysak et al., 2023)<otsl>
区域 OCROCR the text in a specific location: <loc_155><loc_233><loc_206><loc_237>
查找元素位置Find all 'text' elements on the page, retrieve section headings.
检测页脚Detect footer elements on the page.

注:<loc_xxx> 表示 bounding box 坐标标记,用于区域引导推理。

© 版权声明

相关文章

暂无评论

none
暂无评论...