
研究工作完成后,你是否还在为制作汇报用的幻灯片或学术海报头疼?排版、图表提取、内容摘要、风格统一……这些重复性劳动,其实可以交给工具来完成。
Paper2Slides 是一个开源工具,它能将你的研究论文、技术报告或其他文档,在几分钟内自动转化为结构清晰、视觉精良的幻灯片或海报。整个过程只需一条命令,支持 PDF、Word、Markdown 等多种格式,并保留原始内容的可追溯性。

核心能力
Paper2Slides 的设计目标很明确:减少重复劳动,保留内容准确性,提升视觉专业性。具体体现在以下六个方面:
- 通用格式支持
无论是 PDF、Word、Excel、PowerPoint,还是 Markdown,都能直接作为输入。多个文件也可一并处理。 - RAG 驱动的内容提取
借助检索增强生成(RAG)技术,工具能准确识别并提取论文中的关键论点、图表、表格和数据,避免遗漏重要信息。 - 内容可追溯
生成的每一页幻灯片都与原文档保持关联,确保信息不跑偏,方便后续核对或引用。 - 灵活的视觉风格
提供academic(学术风)、doraemon(卡通风)等内置主题,也支持用自然语言描述自定义风格。例如:“Studio Ghibli 动漫风格,柔和水彩莫兰迪色调,浅米色背景,搭配灰绿色与灰粉色点缀,穿插自然元素如云朵或树叶。”
- 闪电生成与实时预览
启用--fast模式可跳过索引阶段,直接调用大模型生成初稿,适合短文档快速迭代。 - 进度自动保存
每个处理阶段都会生成检查点(checkpoint),即使中断,再次运行相同命令即可自动续跑,无需重做。

快速上手
1. 环境准备
# 克隆项目
git clone https://github.com/HKUDS/Paper2Slides.git
cd Paper2Slides
# 创建 Python 3.12 虚拟环境
conda create -n paper2slides python=3.12 -y
conda activate paper2slides
# 安装依赖
pip install -r requirements.txt
注意:请在
paper2slides/目录下创建.env文件,并填入所需的 API 密钥(如 Gemini 或其他图像生成模型),具体字段参考.env.example。
2. 基础命令示例
# 从论文生成中等长度的幻灯片,使用 Doraemon 风格,启用快速模式和并行处理
python -m paper2slides --input paper.pdf --output slides --style doraemon --length medium --fast --parallel 2
常用参数说明:
| 参数 | 说明 | 默认值 |
|---|---|---|
--input / -i | 输入文件(支持目录) | 必填 |
--output | 输出类型:slides 或 poster | poster |
--content | 内容类型:paper(论文)或 general(通用文档) | paper |
--style | 视觉风格:academic、doraemon 或自定义描述 | doraemon |
--length | 幻灯片长度:short / medium / long | short |
--density | 海报信息密度:sparse / medium / dense | medium |
--fast | 跳过 RAG 索引,直接生成 | false |
--parallel N | 启用 N 个并行工作进程加速生成 | 1(顺序执行) |
3. 恢复与重试机制
Paper2Slides 采用四阶段流水线处理:
- RAG:解析文档,构建可检索的知识库
- 分析:提取结构、图表、表格
- 规划:设计幻灯片/海报的布局逻辑
- 生成:渲染最终图像并输出 PDF
每个阶段均生成对应检查点(如 checkpoint_rag.json、checkpoint_plan.json),支持灵活恢复:
- 中断后继续? → 直接重跑原命令
- 想换风格但保留内容? → 加
--from-stage plan - 只重绘图像? → 加
--from-stage generate - 完全重做? → 加
--from-stage rag
使用场景建议
- 正常模式(默认):适合长篇论文、多图表报告、多文件合并处理。RAG 索引确保上下文精准。
- 快速模式(
--fast):适合短文档、初稿预览或快速修改。跳过索引,直接调用大模型生成。
小贴士:图像生成默认使用
gemini-3-pro-image-preview(也称 Nano Banana Pro Preview)。实测表明,简洁的风格描述(如“温暖、简洁、蓝灰主色”)比冗长细节效果更好,且多图生成采用逐张迭代以保证风格一致。
网页界面(可选)
除了命令行,Paper2Slides 也提供图形界面:
# 一键启动前后端
./scripts/start.sh
# 或分别启动
# 终端1:
./scripts/start_backend.sh
# 终端2:
./scripts/start_frontend.sh
访问 http://localhost:5173 即可使用 Web 界面操作,适合不熟悉命令行的用户。
数据统计
相关导航


SurfSense

iMini AI

Cracked AI

Action Agent

Office-PowerPoint-MCP-Server

Manus






