MinerU：一站式开源高质量数据提取工具，支持PDF/网页/多格式电子书提取

工具2年前发布小马良

798 0

MinerU是上海人工智能实验室旗下数据开放平台OpenDataLab开源的一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。 MinerU诞生于上海人工智能实验室的大语言模型书生-浦语的预训练过程中，他们将会集中精力解决科技文献中的符号转化问题，希望在大模型时代为科技发展做出贡献。不过相比国内外知名商用产品MinerU还很年轻，目前尚有很多不足。

官网：https://opendatalab.com/OpenSourceTools
GitHub：https://github.com/opendatalab/MinerU
Demo：OpenDataLab/HuggingFace/ModelScope

主要功能

删除页眉、页脚、脚注、页码等元素，保持语义连贯
对多栏输出符合人类阅读顺序的文本
保留原文档的结构，包括标题、段落、列表等
提取图像、图片标题、表格、表格标题
自动识别文档中的公式并将公式转换成latex
自动识别文档中的表格并将表格转换成latex
乱码PDF自动检测并启用OCR
支持CPU和GPU环境
支持windows/linux/mac平台

软硬件环境支持

目前问题

阅读顺序基于规则的分割，在一些情况下会乱序
不支持竖排文字
列表、代码块、目录在layout模型里还没有支持
漫画书、艺术图册、小学教材、习题尚不能很好解析
在一些公式密集的PDF上强制启用OCR效果会更好
如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。

工具 # MinerU # OpenDataLab

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DiffEx：专为 AnimateDiff CLI Prompt Travel 设计的易于使用的桌面UI

DiffEx：专为 AnimateDiff CLI Prompt Travel 设计的易于使用的桌面UI

工具 # AnimateDiff # DiffEx

1年前

03940

Luma AI推出AI视频生成服务Dream Machine，通过自然语言描述生成逼真的视频

Luma AI推出AI视频生成服务Dream Machine，通过自然语言描述生成逼真的视频

工具 # AI视频 # Dream Machine # Luma AI

2年前

06340

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

工具 # KaihongOS # 开源鸿蒙 # 深开鸿

4周前

01830

LangChain多智能体架构选型指南：四种模式+性能对比，从单智能体到多智能体的升级路径

LangChain多智能体架构选型指南：四种模式+性能对比，从单智能体到多智能体的升级路径

工具 # LangChain # 智能体

2个月前

0680

暂无评论

none

暂无评论...