新加坡国立大学推出 PaperTalker：首个从论文自动生成学术演讲视频的多智能体框架

230 0

对于研究人员来说，将一篇论文转化为一场高质量的学术演示视频，往往意味着数小时的设计、录制与剪辑——即使最终视频只有5到10分钟。

幻灯片排版、语音同步、字幕对齐、讲解节奏控制……这些重复性工作消耗大量精力，却与核心科研无关。

为解决这一痛点，新加坡国立大学 Show Lab 推出 PaperTalker——全球首个面向学术演示视频生成的多智能体自动化框架。它能直接输入一篇PDF格式的研究论文，输出一段包含幻灯片、语音、字幕、数字主讲人和鼠标指针的完整演讲视频。

与此同时，团队还发布了配套基准数据集 Paper2Video，为该领域建立首个可衡量标准。这不仅是效率工具的升级，更是学术传播方式的一次结构性革新。

随着 NeurIPS、ICML 等顶会全面推行“必交视频”政策，越来越多研究者必须为每篇投稿准备3–10分钟的讲解视频。

但当前流程高度依赖人工：

整个过程耗时通常超过5小时，且质量受个人技能影响大。

更关键的是，现有视频生成方法难以应对学术内容的独特挑战：

为此，Show Lab 提出了一套完整的解决方案：数据集 + 框架 + 评估体系。

要训练和评估自动化系统，首先需要真实、高质量的数据。

团队构建了 Paper2Video——一个包含 101篇研究论文及其作者制作的官方演示视频 的公开数据集，涵盖计算机视觉、自然语言处理、机器人等多个领域。

每项数据包括：

这个数据集的价值在于：它提供了从“论文 → 视频”的真实映射路径，成为后续模型训练与评估的基础。

PaperTalker 不是一个单一模型，而是一个由四个专业化“构建器”组成的多智能体协作系统，各司其职、并行推进。

输入论文后，自动生成 LaTeX Beamer 代码，并通过编译反馈迭代优化布局与语法。
创新点：引入 树搜索视觉选择（Tree Search Visual Choice），在多个候选排版方案中选择最符合学术审美的布局。

结合视觉语言模型分析幻灯片内容，生成逐句讲解文本，并标注句子级视觉焦点区域（如某图表、某公式），用于后续光标定位。

将视觉焦点提示转换为屏幕坐标轨迹，生成自然的鼠标移动路径，并与语音时间轴精确对齐，增强观众注意力引导。

利用主讲人的照片与语音样本，通过 TTS 和数字人技术生成个性化讲解视频，保留面部特征与说话风格，提升可信度与归属感。

所有模块采用逐页并行生成策略，显著提升效率——相比传统串行流程，速度提升 6倍以上。

最终，系统将五大元素（幻灯片、语音、字幕、光标、主讲人）合成为统一视频流，实现端到端自动化。

学术视频的质量不能仅看“像不像真人”，更要评估“是否有效传递知识”。

因此，团队提出四个专为学术场景设计的评估维度：

指标	说明
Meta Similarity	衡量生成视频在幻灯片、语音、字幕等方面与原作的相似程度
PresentArena	通过A/B测试比较不同方法生成视频的整体质量偏好
PresentQuiz	观众观看后回答预设问题，评估信息覆盖与理解度
IP Memory	测试观众能否记住作者身份与论文贡献，反映影响力潜力

这些指标共同构成一个“以传播效果为中心”的评价体系，超越传统视频生成中的FVD、CLIP-Score等通用指标。