Scanned PDF to Epub Converter (扫描版 PDF 转 EPUB)

4周前发布 49 00

Scanned PDF to Epub Converter 是一款利用百度 PaddleOCR 版面分析 API 打造的开源工具，能智能识别文档结构，将扫描版 PDF 一键转换为章节清晰、排版精美、无干扰的 EPUB 电子书。

所在地：

中国

收录时间：

2026-03-13

打开网站手机查看

Scanned PDF to Epub Converter (扫描版 PDF 转 EPUB)

打开网站

你是否曾面对一堆扫描版 PDF 书籍发愁？文字无法复制、排版错乱、页眉页脚干扰阅读，更无法在 Kindle 或手机阅读器上获得舒适的流式阅读体验。

Scanned PDF to Epub Converter 是一款利用百度 PaddleOCR 版面分析 API 打造的开源工具，能智能识别文档结构，将扫描版 PDF 一键转换为章节清晰、排版精美、无干扰的 EPUB 电子书。

核心功能：智能重构，而非简单转换

1. 高精度版面分析

依托百度飞桨强大的 PaddleOCR 引擎，工具不仅能识别文字，更能理解文档结构：

智能分区：精准区分正文段落、各级标题、图片、表格和脚注。
逻辑还原：根据识别结果重建文档逻辑流，确保阅读顺序自然流畅。

2. 自动章节分割

无需手动切割文件。工具会根据识别到的标题（如“第一章”、“Part I”、“1.1 绪论”等）自动将书籍分割为独立章节，生成带有完整目录导航的 EPUB 文件，跳转查阅极其方便。

3. 图文完美保留

图片提取：原书中的插图、图表会被完整提取并嵌入对应位置。
纯净阅读：自动检测并移除页眉、页脚、页码等干扰元素，提供沉浸式的无缝阅读体验。

4. 工业级鲁棒性设计

针对大文件处理和 API 调用的不稳定性，工具做了周全的防护：

断点续传：每处理完一个分块（默认 5 页）即自动保存进度。若因网络中断或程序崩溃停止，重新运行即可从断点处继续，无需重头再来。
自动重试：遇到 API 请求超时或失败，内置机制会自动重试，确保任务完成率。
速率限制：内置智能延时，严格遵守百度 API 的调用频率限制，防止账号被封禁。

快速开始：推荐使用 `uv`

本项目推荐使用现代化的 Python 包管理工具 uv，它能秒级创建环境并安装依赖。

第一步：获取 API Token

登录百度飞桨星河社区 (AIStudio)。
进入“应用中心”，找到 PaddleOCR 或 文档版面分析 相关服务。
在个人中心复制你的私有 API Token。（注意：请确保账户有足够的免费或付费调用额度）

第二步：克隆与运行

# 1. 克隆项目
git clone https://github.com/yourusername/pdf2epub-paddle.git
cd pdf2epub-paddle

# 2. 设置环境变量 (替换为你的 Token)
export PADDLE_API_TOKEN='你的_api_token'

# 3. 使用 uv 直接运行 (自动处理环境)
uv run pdf2epub_paddle.py /path/to/your/book.pdf

运行结束后，你将在输出目录得到一本精美的 .epub 电子书。

💡 替代方案：使用标准 Pip

如果你习惯传统方式：

# 创建虚拟环境
python -m venv .venv
source .venv/bin/activate  # Windows: .venv\Scripts\activate

# 安装依赖
pip install .

# 运行
export PADDLE_API_TOKEN='你的_api_token'
python pdf2epub_paddle.py /path/to/your/book.pdf

高级配置

对于特殊需求，你可以修改脚本中的配置项：

CHUNK_SIZE (分块大小)：默认 5 页/块。
- 建议：网络不稳定或免费额度有限时，保持较小值以确保断点续传粒度更细；网络极佳时可适当调大以提升速度。
TIMEOUT (超时时间)：默认 180 秒。
- 建议：若处理包含大量高清图片的页面，可适当增加超时时间以防误判失败。

适用场景

绝版书数字化：将扫描版的绝版书籍转换为可重排、可搜索的电子书。
学术文献整理：自动提取论文章节，方便在平板上做笔记和引用。
个人知识库构建：批量处理扫描文档，导入 Notion、Obsidian 或阅读器中。
无障碍阅读：为视障人士将图片型 PDF 转换为屏幕阅读器友好的 EPUB 格式。

数据统计

暂无评论

暂无评论...