PaperBanana

1个月前发布 34 00

在 AI 辅助科研的流程中，语言模型已能高效完成文献综述、代码生成甚至实验设计。但有一环始终依赖人工：绘制符合发表标准的学术插图。无论是模型架构图、方法流程图还是统计图表，研究者仍需花费大量时间调整布局、统一风格、校对标注。为此，北京大学与 Google Cloud AI Research 联合推出了 PaperBanana——一个专为...

所在地：

中国

收录时间：

2026-02-18

其他站点:

项目主页

打开网站手机查看

PaperBanana

打开网站

在 AI 辅助科研的流程中，语言模型已能高效完成文献综述、代码生成甚至实验设计。但有一环始终依赖人工：绘制符合发表标准的学术插图。

无论是模型架构图、方法流程图还是统计图表，研究者仍需花费大量时间调整布局、统一风格、校对标注。为此，北京大学与 Google Cloud AI Research 联合推出了 PaperBanana——一个专为学术插图生成设计的多智能体框架。

它不只是一个"文生图"工具，而是一套参考驱动、可迭代优化、符合学术规范的自动化工作流。

核心亮点速览

参考驱动：自动检索相似论文图例，确保风格与逻辑符合领域惯例
五智能体协作：检索、规划、风格、可视化、批评五大角色分工明确
迭代细化机制：支持最多 3 轮自我批评与修正，提升输出质量
双模输出：既支持示意图/架构图生成，也支持统计图表（代码 or 图像双路径）
专属基准 PaperBananaBench：基于 NeurIPS 2025 论文构建，含 292 个测试用例
多端集成：提供 CLI、Python API、MCP 服务器，支持 Claude Code 技能调用
本地可控：中间产物与元数据完整留存，便于审计与复现

方法概述：五智能体如何协作？

PaperBanana 将学术插图生成拆解为一条流水线，由五个专门智能体协同完成：

原始方法文本
      ↓
[检索智能体] → 匹配 NeurIPS 风格参考图例
      ↓
[规划智能体] → 生成结构化文本描述（内容+逻辑+标注）
      ↓
[风格智能体] → 注入学术美学规范（配色/字体/布局）
      ↓
[可视化智能体] → 渲染图像 或 生成可执行绘图代码
      ↓
[批评智能体] → 对照源文本校验，反馈修正建议
      ↻（最多 3 轮迭代）
      ↓
最终输出：publication-ready 插图 + 完整元数据

各智能体职责详解

智能体	核心任务	关键技术
检索智能体	从 curated 图例库中匹配最相关参考	语义相似度检索 + 风格聚类
规划智能体	将方法描述转化为可视化所需的结构化文本	Gemini VLM 上下文学习 + 逻辑拆解
风格智能体	确保输出符合学术出版美学标准	NeurIPS 风格指南 + 视觉规则引擎
可视化智能体	执行渲染：图像生成 or 代码输出	Gemini 图像模型 / Matplotlib/Plotly 代码生成
批评智能体	校验生成结果与源内容的一致性	VLM 多模态比对 + 规则校验

💡 设计思路：将"生成"拆解为"规划→执行→校验"闭环，避免端到端黑箱模型常见的逻辑漂移与风格失准问题。

基准构建：PaperBananaBench

为客观评估自动化插图生成质量，研究团队构建了 PaperBananaBench——首个面向学术方法图的专用评测基准。

构建流程

收集与解析：爬取 NeurIPS 2025 接收论文，提取方法章节与对应图例
质量过滤：人工筛选逻辑清晰、标注完整、风格典型的图例
分类标注：按研究领域（CV/NLP/RL 等）与图表类型（架构/流程/统计）打标
人工策展：最终形成 292 个测试用例 + 292 个参考用例，共 584 个高质量样本

评测维度

忠实度（Fidelity）：生成内容是否准确反映方法逻辑
简洁性（Conciseness）：信息密度与视觉冗余的平衡
可读性（Readability）：标注清晰度、字体大小、对比度
美观性（Aesthetics）：配色、布局、学术风格符合度

实验结果：全面优于基线

在 PaperBananaBench 上的系统评估显示：

方法	忠实度	简洁性	可读性	美观性	综合得分
直接文生图（Gemini）	72.1	68.4	75.3	70.2	71.5
Code-based 绘图代理	78.6	74.1	81.2	65.8	74.9
PaperBanana（Ours）	86.3	82.7	88.1	84.5	85.4

✅ 所有维度均显著优于单模型基线与纯代码生成方案
✅ 迭代细化机制对提升忠实度与可读性贡献最大
✅ 风格智能体有效缩小了与人工绘制图表的美学差距

扩展能力：高质量统计图生成

PaperBanana 同样适用于折线图、热力图、箱线图等统计图表。下图即为 Nano-Banana-Pro 根据原始数据自动生成的示例：

（此处可插入示例图，实际发布时替换为真实输出）

两个高级应用场景

应用 1：提升手工图表的美学质量

即使图表已由人工绘制，PaperBanana 的风格智能体仍可基于 NeurIPS 指南提供优化建议：

自动调整配色方案，确保色盲友好
统一字体字号与线宽，符合出版规范
优化元素布局，减少视觉拥挤

适合：已绘制初稿、希望快速提升专业度的研究者

应用 2：图像生成 vs 代码生成，如何选择？

团队对比了两种统计图生成路径：

维度	图像生成路径	代码生成路径
呈现效果	✅ 更美观，风格统一	⚠️ 依赖模板，需手动调优
内容忠实度	⚠️ 偶发细节偏差	✅ 逻辑精确，可追溯
可编辑性	❌ 位图，修改困难	✅ 代码可复用、可调整
适用场景	示意图、概念图、汇报用图	实验结果图、需复现的统计图

💡 建议：方法架构图优先用图像生成；实验数据图推荐代码路径，兼顾准确性与可复现性。

快速上手指南

前置要求

Python 3.10 或更高版本
Google Gemini API 密钥（需开通 Gemini 2.0+ 权限）

步骤 1：安装

# 方式一：PyPI 安装（推荐）
pip install paperbanana

# 方式二：源码安装（开发模式）
git clone https://github.com/llmsresearch/paperbanana.git  
cd paperbanana
pip install -e ".[dev,google]"

步骤 2：配置 API 密钥

# 推荐：交互式设置（自动打开浏览器授权）
paperbanana setup

# 或手动配置
cp .env.example .env
# 编辑 .env 文件，填入：GOOGLE_API_KEY=your-key-here

步骤 3：生成你的第一张学术插图

# 使用内置示例
paperbanana generate \
  --input examples/sample_inputs/transformer_method.txt \
  --caption "Overview of our encoder-decoder architecture with sparse routing"

# 或使用自定义方法描述
cat > my_method.txt << 'EOF'
Our framework consists of an encoder that processes input sequences
through multi-head self-attention layers, followed by a decoder that
generates output tokens auto-regressively using cross-attention to
the encoder representations. We add a novel routing mechanism that
selects relevant encoder states for each decoder step.
EOF

paperbanana generate \
  --input my_method.txt \
  --caption "Overview of our encoder-decoder framework"

✅ 输出路径：outputs/run_<timestamp>/final_output.png
✅ 附带内容：所有中间迭代图像、智能体决策日志、元数据 JSON

工作原理：两阶段流程详解

第一阶段：线性规划（Planning）

检索器：从 13 个 curated NeurIPS 图例中，基于语义相似度选出 Top-3 参考
规划器：结合参考图例的结构与标注习惯，生成目标图的详细文本描述（含元素列表、连接关系、标注位置）
风格器：注入学术出版规范，如：
- 字体：Arial/Helvetica，字号≥8pt
- 配色：ColorBrewer 安全 palette，避免红绿对比
- 布局：左→右/上→下逻辑流，避免交叉连线

第二阶段：迭代细化（Refinement）

可视化器：调用 Gemini 图像模型生成初稿，或输出 Matplotlib/Plotly 代码
批评器：对比源文本与生成图像，检查：
- 关键组件是否遗漏
- 箭头/连线逻辑是否正确
- 标注文字是否准确
反馈循环：若发现问题，批评器生成修正指令，返回规划器调整描述，最多迭代 3 轮

🔄 设计优势：避免"一次生成定终身"，通过多轮校验逼近人工绘制质量。

技术栈与集成方式

核心依赖

组件	提供商	模型/版本
视觉语言模型	Google Gemini	gemini-2.0-flash
图像生成	Google Gemini	gemini-3-pro-image-preview
代码执行沙箱	本地 Python 环境	Matplotlib 3.7+, Plotly 5.15+

集成接口

命令行（CLI）：适合脚本化批量生成
Python API：from paperbanana import Generator，支持自定义智能体配置

MCP 服务器：通过 Model Context Protocol 与 AI 助手（如 Claude Code）集成，支持技能调用：

/generate-diagram --input method.txt
/generate-plot --data results.csv --type heatmap
/evaluate-diagram --image output.png --reference method.txt

适用人群与使用建议

用户类型	推荐用法	注意事项
科研学生	用 `/generate-diagram` 快速绘制方法初稿，再手动微调	首次使用建议从示例输入开始，熟悉输出格式
实验室 PI	批量生成组内论文插图，统一风格规范	建议建立团队专属参考图例库，提升检索准确率
期刊编辑/审稿人	用 `/evaluate-diagram` 辅助检查投稿图表合规性	当前仅支持 NeurIPS 风格，其他会议风格待扩展
AI 开发者	通过 Python API 集成到论文写作工具链	注意 API 调用频率限制，大任务建议加重试逻辑

数据统计

KREA AI

Grok Imagine

Grok Imagine 允许用户通过自然语言提示，直接生成视频和图像内容。它不仅支持“文生视频”，还具备以下能力：图像转动态视频：将静态图片转化为带声音的动态内容;最长生成 6 分钟视频：与当年 Vine 的 6 秒短视频形成鲜明对比，但马斯克称其为“以 AI 形式复活 Vine”;实时调整生成过程：用户可在生成中即时优化输出，无需导出或切换工具。

Scenario

Scenario是一个专注于游戏开发的AI工具，帮助开发者快速生成并管理游戏资产，如角色、背景和道具。它通过训练定制AI模型，确保资产风格一致，适合需要大规模生产视觉内容且保持艺术愿景的团队。

Midjourney

Midjourney是目前最强的AI绘画工具，输入提示词即可通过AI算法生成相对应的图片，只需要不到一分钟。对于新用户，官方提供一段时间的免费试用，用户可以直接通过谷歌账号注册体验。

Luma Photon

Luma AI于2024年12月推出了两款新的高级文本到图像模型——Photon 和 Photon Flash，这些模型可通过 Luma 官方网站访问，旨在为创意和设计师等专业人士提供更高质量的图像生成服务。

暂无评论

暂无评论...

PaperBanana

核心亮点速览

方法概述：五智能体如何协作？

各智能体职责详解

基准构建：PaperBananaBench

构建流程

评测维度

实验结果：全面优于基线

扩展能力：高质量统计图生成

两个高级应用场景

应用 1：提升手工图表的美学质量

应用 2：图像生成 vs 代码生成，如何选择？

快速上手指南

前置要求

步骤 1：安装

步骤 2：配置 API 密钥

步骤 3：生成你的第一张学术插图

工作原理：两阶段流程详解

第一阶段：线性规划（Planning）

第二阶段：迭代细化（Refinement）

技术栈与集成方式

核心依赖

集成接口

适用人群与使用建议

数据统计

相关导航

Vellum - AI 皮肤增强器

ComfyOnline

呜哩（WuLi）

KREA AI

Grok Imagine

Scenario

Midjourney

Luma Photon

暂无评论

网址

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work

标签云

网址

OpenMAIC

ITELLOU

S.H.I.T

Tripo

CoPaw

Accio Work