
在 AI 辅助科研的流程中,语言模型已能高效完成文献综述、代码生成甚至实验设计。但有一环始终依赖人工:绘制符合发表标准的学术插图。
无论是模型架构图、方法流程图还是统计图表,研究者仍需花费大量时间调整布局、统一风格、校对标注。为此,北京大学与 Google Cloud AI Research 联合推出了 PaperBanana——一个专为学术插图生成设计的多智能体框架。

它不只是一个"文生图"工具,而是一套参考驱动、可迭代优化、符合学术规范的自动化工作流。
核心亮点速览
- 参考驱动:自动检索相似论文图例,确保风格与逻辑符合领域惯例
- 五智能体协作:检索、规划、风格、可视化、批评五大角色分工明确
- 迭代细化机制:支持最多 3 轮自我批评与修正,提升输出质量
- 双模输出:既支持示意图/架构图生成,也支持统计图表(代码 or 图像双路径)
- 专属基准 PaperBananaBench:基于 NeurIPS 2025 论文构建,含 292 个测试用例
- 多端集成:提供 CLI、Python API、MCP 服务器,支持 Claude Code 技能调用
- 本地可控:中间产物与元数据完整留存,便于审计与复现
方法概述:五智能体如何协作?
PaperBanana 将学术插图生成拆解为一条流水线,由五个专门智能体协同完成:
原始方法文本
↓
[检索智能体] → 匹配 NeurIPS 风格参考图例
↓
[规划智能体] → 生成结构化文本描述(内容+逻辑+标注)
↓
[风格智能体] → 注入学术美学规范(配色/字体/布局)
↓
[可视化智能体] → 渲染图像 或 生成可执行绘图代码
↓
[批评智能体] → 对照源文本校验,反馈修正建议
↻(最多 3 轮迭代)
↓
最终输出:publication-ready 插图 + 完整元数据
各智能体职责详解
| 智能体 | 核心任务 | 关键技术 |
|---|---|---|
| 检索智能体 | 从 curated 图例库中匹配最相关参考 | 语义相似度检索 + 风格聚类 |
| 规划智能体 | 将方法描述转化为可视化所需的结构化文本 | Gemini VLM 上下文学习 + 逻辑拆解 |
| 风格智能体 | 确保输出符合学术出版美学标准 | NeurIPS 风格指南 + 视觉规则引擎 |
| 可视化智能体 | 执行渲染:图像生成 or 代码输出 | Gemini 图像模型 / Matplotlib/Plotly 代码生成 |
| 批评智能体 | 校验生成结果与源内容的一致性 | VLM 多模态比对 + 规则校验 |
💡 设计思路:将"生成"拆解为"规划→执行→校验"闭环,避免端到端黑箱模型常见的逻辑漂移与风格失准问题。

基准构建:PaperBananaBench
为客观评估自动化插图生成质量,研究团队构建了 PaperBananaBench——首个面向学术方法图的专用评测基准。
构建流程
- 收集与解析:爬取 NeurIPS 2025 接收论文,提取方法章节与对应图例
- 质量过滤:人工筛选逻辑清晰、标注完整、风格典型的图例
- 分类标注:按研究领域(CV/NLP/RL 等)与图表类型(架构/流程/统计)打标
- 人工策展:最终形成 292 个测试用例 + 292 个参考用例,共 584 个高质量样本
评测维度
- 忠实度(Fidelity):生成内容是否准确反映方法逻辑
- 简洁性(Conciseness):信息密度与视觉冗余的平衡
- 可读性(Readability):标注清晰度、字体大小、对比度
- 美观性(Aesthetics):配色、布局、学术风格符合度
实验结果:全面优于基线
在 PaperBananaBench 上的系统评估显示:
| 方法 | 忠实度 | 简洁性 | 可读性 | 美观性 | 综合得分 |
|---|---|---|---|---|---|
| 直接文生图(Gemini) | 72.1 | 68.4 | 75.3 | 70.2 | 71.5 |
| Code-based 绘图代理 | 78.6 | 74.1 | 81.2 | 65.8 | 74.9 |
| PaperBanana(Ours) | 86.3 | 82.7 | 88.1 | 84.5 | 85.4 |
✅ 所有维度均显著优于单模型基线与纯代码生成方案
✅ 迭代细化机制对提升忠实度与可读性贡献最大
✅ 风格智能体有效缩小了与人工绘制图表的美学差距
扩展能力:高质量统计图生成
PaperBanana 同样适用于折线图、热力图、箱线图等统计图表。下图即为 Nano-Banana-Pro 根据原始数据自动生成的示例:
(此处可插入示例图,实际发布时替换为真实输出)
两个高级应用场景
应用 1:提升手工图表的美学质量
即使图表已由人工绘制,PaperBanana 的风格智能体仍可基于 NeurIPS 指南提供优化建议:
- 自动调整配色方案,确保色盲友好
- 统一字体字号与线宽,符合出版规范
- 优化元素布局,减少视觉拥挤
适合:已绘制初稿、希望快速提升专业度的研究者
应用 2:图像生成 vs 代码生成,如何选择?
团队对比了两种统计图生成路径:
| 维度 | 图像生成路径 | 代码生成路径 |
|---|---|---|
| 呈现效果 | ✅ 更美观,风格统一 | ⚠️ 依赖模板,需手动调优 |
| 内容忠实度 | ⚠️ 偶发细节偏差 | ✅ 逻辑精确,可追溯 |
| 可编辑性 | ❌ 位图,修改困难 | ✅ 代码可复用、可调整 |
| 适用场景 | 示意图、概念图、汇报用图 | 实验结果图、需复现的统计图 |
💡 建议:方法架构图优先用图像生成;实验数据图推荐代码路径,兼顾准确性与可复现性。
快速上手指南
前置要求
- Python 3.10 或更高版本
- Google Gemini API 密钥(需开通 Gemini 2.0+ 权限)
步骤 1:安装
# 方式一:PyPI 安装(推荐)
pip install paperbanana
# 方式二:源码安装(开发模式)
git clone https://github.com/llmsresearch/paperbanana.git
cd paperbanana
pip install -e ".[dev,google]"
步骤 2:配置 API 密钥
# 推荐:交互式设置(自动打开浏览器授权)
paperbanana setup
# 或手动配置
cp .env.example .env
# 编辑 .env 文件,填入:GOOGLE_API_KEY=your-key-here
步骤 3:生成你的第一张学术插图
# 使用内置示例
paperbanana generate \
--input examples/sample_inputs/transformer_method.txt \
--caption "Overview of our encoder-decoder architecture with sparse routing"
# 或使用自定义方法描述
cat > my_method.txt << 'EOF'
Our framework consists of an encoder that processes input sequences
through multi-head self-attention layers, followed by a decoder that
generates output tokens auto-regressively using cross-attention to
the encoder representations. We add a novel routing mechanism that
selects relevant encoder states for each decoder step.
EOF
paperbanana generate \
--input my_method.txt \
--caption "Overview of our encoder-decoder framework"
✅ 输出路径:outputs/run_<timestamp>/final_output.png
✅ 附带内容:所有中间迭代图像、智能体决策日志、元数据 JSON
工作原理:两阶段流程详解
第一阶段:线性规划(Planning)
- 检索器:从 13 个 curated NeurIPS 图例中,基于语义相似度选出 Top-3 参考
- 规划器:结合参考图例的结构与标注习惯,生成目标图的详细文本描述(含元素列表、连接关系、标注位置)
- 风格器:注入学术出版规范,如:
- 字体:Arial/Helvetica,字号≥8pt
- 配色:ColorBrewer 安全 palette,避免红绿对比
- 布局:左→右/上→下逻辑流,避免交叉连线
第二阶段:迭代细化(Refinement)
- 可视化器:调用 Gemini 图像模型生成初稿,或输出 Matplotlib/Plotly 代码
- 批评器:对比源文本与生成图像,检查:
- 关键组件是否遗漏
- 箭头/连线逻辑是否正确
- 标注文字是否准确
- 反馈循环:若发现问题,批评器生成修正指令,返回规划器调整描述,最多迭代 3 轮
🔄 设计优势:避免"一次生成定终身",通过多轮校验逼近人工绘制质量。
技术栈与集成方式
核心依赖
| 组件 | 提供商 | 模型/版本 |
|---|---|---|
| 视觉语言模型 | Google Gemini | gemini-2.0-flash |
| 图像生成 | Google Gemini | gemini-3-pro-image-preview |
| 代码执行沙箱 | 本地 Python 环境 | Matplotlib 3.7+, Plotly 5.15+ |
集成接口
- 命令行(CLI):适合脚本化批量生成
- Python API:
from paperbanana import Generator,支持自定义智能体配置 - MCP 服务器:通过 Model Context Protocol 与 AI 助手(如 Claude Code)集成,支持技能调用:
/generate-diagram --input method.txt /generate-plot --data results.csv --type heatmap /evaluate-diagram --image output.png --reference method.txt
适用人群与使用建议
| 用户类型 | 推荐用法 | 注意事项 |
|---|---|---|
| 科研学生 | 用 /generate-diagram 快速绘制方法初稿,再手动微调 | 首次使用建议从示例输入开始,熟悉输出格式 |
| 实验室 PI | 批量生成组内论文插图,统一风格规范 | 建议建立团队专属参考图例库,提升检索准确率 |
| 期刊编辑/审稿人 | 用 /evaluate-diagram 辅助检查投稿图表合规性 | 当前仅支持 NeurIPS 风格,其他会议风格待扩展 |
| AI 开发者 | 通过 Python API 集成到论文写作工具链 | 注意 API 调用频率限制,大任务建议加重试逻辑 |
数据统计
相关导航


夸克·造点AI

Black Forest Labs

Freepik AI Suite

ComfyDeploy

必应图像创建器

Morisot






