Scanned PDF to Epub Converter (扫描版 PDF 转 EPUB)

3天前发布 19 00

Scanned PDF to Epub Converter 是一款利用百度 PaddleOCR 版面分析 API 打造的开源工具,能智能识别文档结构,将扫描版 PDF 一键转换为章节清晰、排版精美、无干扰的 EPUB 电子书。

所在地:
中国
收录时间:
2026-03-13
Scanned PDF to Epub Converter (扫描版 PDF 转 EPUB)Scanned PDF to Epub Converter (扫描版 PDF 转 EPUB)

你是否曾面对一堆扫描版 PDF 书籍发愁?文字无法复制、排版错乱、页眉页脚干扰阅读,更无法在 Kindle 或手机阅读器上获得舒适的流式阅读体验。

Scanned PDF to Epub Converter 是一款利用百度 PaddleOCR 版面分析 API 打造的开源工具,能智能识别文档结构,将扫描版 PDF 一键转换为章节清晰、排版精美、无干扰的 EPUB 电子书。

核心功能:智能重构,而非简单转换

1. 高精度版面分析

依托百度飞桨强大的 PaddleOCR 引擎,工具不仅能识别文字,更能理解文档结构

  • 智能分区:精准区分正文段落、各级标题、图片、表格和脚注。
  • 逻辑还原:根据识别结果重建文档逻辑流,确保阅读顺序自然流畅。

2. 自动章节分割

无需手动切割文件。工具会根据识别到的标题(如“第一章”、“Part I”、“1.1 绪论”等)自动将书籍分割为独立章节,生成带有完整目录导航的 EPUB 文件,跳转查阅极其方便。

3. 图文完美保留

  • 图片提取:原书中的插图、图表会被完整提取并嵌入对应位置。
  • 纯净阅读:自动检测并移除页眉、页脚、页码等干扰元素,提供沉浸式的无缝阅读体验。

4. 工业级鲁棒性设计

针对大文件处理和 API 调用的不稳定性,工具做了周全的防护:

  • 断点续传:每处理完一个分块(默认 5 页)即自动保存进度。若因网络中断或程序崩溃停止,重新运行即可从断点处继续,无需重头再来。
  • 自动重试:遇到 API 请求超时或失败,内置机制会自动重试,确保任务完成率。
  • 速率限制:内置智能延时,严格遵守百度 API 的调用频率限制,防止账号被封禁。

快速开始:推荐使用 uv

本项目推荐使用现代化的 Python 包管理工具 uv,它能秒级创建环境并安装依赖。

第一步:获取 API Token

  1. 登录 百度飞桨星河社区 (AIStudio)
  2. 进入“应用中心”,找到 PaddleOCR 或 文档版面分析 相关服务。
  3. 在个人中心复制你的私有 API Token。(注意:请确保账户有足够的免费或付费调用额度

第二步:克隆与运行

# 1. 克隆项目
git clone https://github.com/yourusername/pdf2epub-paddle.git
cd pdf2epub-paddle

# 2. 设置环境变量 (替换为你的 Token)
export PADDLE_API_TOKEN='你的_api_token'

# 3. 使用 uv 直接运行 (自动处理环境)
uv run pdf2epub_paddle.py /path/to/your/book.pdf

运行结束后,你将在输出目录得到一本精美的 .epub 电子书。

💡 替代方案:使用标准 Pip

如果你习惯传统方式:

# 创建虚拟环境
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate

# 安装依赖
pip install .

# 运行
export PADDLE_API_TOKEN='你的_api_token'
python pdf2epub_paddle.py /path/to/your/book.pdf

高级配置

对于特殊需求,你可以修改脚本中的配置项:

  • CHUNK_SIZE (分块大小):默认 5 页/块
    • 建议:网络不稳定或免费额度有限时,保持较小值以确保断点续传粒度更细;网络极佳时可适当调大以提升速度。
  • TIMEOUT (超时时间):默认 180 秒
    • 建议:若处理包含大量高清图片的页面,可适当增加超时时间以防误判失败。

适用场景

  • 绝版书数字化:将扫描版的绝版书籍转换为可重排、可搜索的电子书。
  • 学术文献整理:自动提取论文章节,方便在平板上做笔记和引用。
  • 个人知识库构建:批量处理扫描文档,导入 Notion、Obsidian 或阅读器中。
  • 无障碍阅读:为视障人士将图片型 PDF 转换为屏幕阅读器友好的 EPUB 格式。

数据统计

相关导航

暂无评论

none
暂无评论...