MinerU:一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取

MinerU是上海人工智能实验室旗下数据开放平台OpenDataLab开源的一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于上海人工智能实验室的大语言模型书生-浦语的预训练过程中,他们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 不过相比国内外知名商用产品MinerU还很年轻,目前尚有很多不足

主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

软硬件环境支持

目前问题

  • 阅读顺序基于规则的分割,在一些情况下会乱序
  • 不支持竖排文字
  • 列表、代码块、目录在layout模型里还没有支持
  • 漫画书、艺术图册、小学教材、习题尚不能很好解析
  • 在一些公式密集的PDF上强制启用OCR效果会更好
  • 如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。
0

评论0

没有账号?注册  忘记密码?