Paper2Slides

2天前发布 16 00

Paper2Slides 是一个开源工具,它能将你的研究论文、技术报告或其他文档,在几分钟内自动转化为结构清晰、视觉精良的幻灯片或海报。整个过程只需一条命令,支持 PDF、Word、Markdown 等多种格式,并保留原始内容的可追溯性。

所在地:
中国
收录时间:
2025-12-12
Paper2SlidesPaper2Slides

研究工作完成后,你是否还在为制作汇报用的幻灯片或学术海报头疼?排版、图表提取、内容摘要、风格统一……这些重复性劳动,其实可以交给工具来完成。

Paper2Slides 是一个开源工具,它能将你的研究论文、技术报告或其他文档,在几分钟内自动转化为结构清晰、视觉精良的幻灯片或海报。整个过程只需一条命令,支持 PDF、Word、Markdown 等多种格式,并保留原始内容的可追溯性。

Paper2Slides

核心能力

Paper2Slides 的设计目标很明确:减少重复劳动,保留内容准确性,提升视觉专业性。具体体现在以下六个方面:

  • 通用格式支持
    无论是 PDF、Word、Excel、PowerPoint,还是 Markdown,都能直接作为输入。多个文件也可一并处理。
  • RAG 驱动的内容提取
    借助检索增强生成(RAG)技术,工具能准确识别并提取论文中的关键论点、图表、表格和数据,避免遗漏重要信息。
  • 内容可追溯
    生成的每一页幻灯片都与原文档保持关联,确保信息不跑偏,方便后续核对或引用。
  • 灵活的视觉风格
    提供 academic(学术风)、doraemon(卡通风)等内置主题,也支持用自然语言描述自定义风格。例如:

    “Studio Ghibli 动漫风格,柔和水彩莫兰迪色调,浅米色背景,搭配灰绿色与灰粉色点缀,穿插自然元素如云朵或树叶。”

  • 闪电生成与实时预览
    启用 --fast 模式可跳过索引阶段,直接调用大模型生成初稿,适合短文档快速迭代。
  • 进度自动保存
    每个处理阶段都会生成检查点(checkpoint),即使中断,再次运行相同命令即可自动续跑,无需重做。
Paper2Slides

快速上手

1. 环境准备

# 克隆项目
git clone https://github.com/HKUDS/Paper2Slides.git
cd Paper2Slides

# 创建 Python 3.12 虚拟环境
conda create -n paper2slides python=3.12 -y
conda activate paper2slides

# 安装依赖
pip install -r requirements.txt

注意:请在 paper2slides/ 目录下创建 .env 文件,并填入所需的 API 密钥(如 Gemini 或其他图像生成模型),具体字段参考 .env.example

2. 基础命令示例

# 从论文生成中等长度的幻灯片,使用 Doraemon 风格,启用快速模式和并行处理
python -m paper2slides --input paper.pdf --output slides --style doraemon --length medium --fast --parallel 2

常用参数说明:

参数说明默认值
--input / -i输入文件(支持目录)必填
--output输出类型:slides 或 posterposter
--content内容类型:paper(论文)或 general(通用文档)paper
--style视觉风格:academicdoraemon 或自定义描述doraemon
--length幻灯片长度:short / medium / longshort
--density海报信息密度:sparse / medium / densemedium
--fast跳过 RAG 索引,直接生成false
--parallel N启用 N 个并行工作进程加速生成1(顺序执行)

3. 恢复与重试机制

Paper2Slides 采用四阶段流水线处理:

  1. RAG:解析文档,构建可检索的知识库
  2. 分析:提取结构、图表、表格
  3. 规划:设计幻灯片/海报的布局逻辑
  4. 生成:渲染最终图像并输出 PDF

每个阶段均生成对应检查点(如 checkpoint_rag.jsoncheckpoint_plan.json),支持灵活恢复:

  • 中断后继续? → 直接重跑原命令
  • 想换风格但保留内容? → 加 --from-stage plan
  • 只重绘图像? → 加 --from-stage generate
  • 完全重做? → 加 --from-stage rag

使用场景建议

  • 正常模式(默认):适合长篇论文、多图表报告、多文件合并处理。RAG 索引确保上下文精准。
  • 快速模式(--fast:适合短文档、初稿预览或快速修改。跳过索引,直接调用大模型生成。

小贴士:图像生成默认使用 gemini-3-pro-image-preview(也称 Nano Banana Pro Preview)。实测表明,简洁的风格描述(如“温暖、简洁、蓝灰主色”)比冗长细节效果更好,且多图生成采用逐张迭代以保证风格一致。

网页界面(可选)

除了命令行,Paper2Slides 也提供图形界面:

# 一键启动前后端
./scripts/start.sh

# 或分别启动
# 终端1:
./scripts/start_backend.sh
# 终端2:
./scripts/start_frontend.sh

访问 http://localhost:5173 即可使用 Web 界面操作,适合不熟悉命令行的用户。

数据统计

相关导航

暂无评论

none
暂无评论...